La memoria semantica è la parte della memoria dichiarativa che riguarda le conoscenze generali sul mondo, per esempio il prezzo di un oggetto, il presidente della Repubblica Italiana, i contenuti appresi a scuola.
A differenza della memoria episodica non è personale ma comune a tutti coloro che parlano la stessa lingua. Per esempio, il ricordo "l'uomo è un mammifero" fa parte della memoria semantica, mentre il ricordo "alle elementari ho imparato che l'uomo è un mammifero" fa parte della memoria episodica (e in particolare della memoria autobiografica).
La memoria episodica e la memoria semantica non sono localizzate nella stessa area del cervello pertanto non sono soggette a processo degenerativo nello stesso momento.[1]
L'essenza della memoria semantica è che i suoi contenuti non sono legati a nessuna particolare istanza di esperienza, come nella memoria episodica. Invece, ciò che è immagazzinato nella memoria semantica è il "succo" dell'esperienza, una struttura astratta che si applica a un'ampia varietà di oggetti esperienziali e delinea le relazioni categoriali e funzionali tra tali oggetti[2]. Quindi, una teoria completa della memoria semantica deve tener conto non solo della struttura rappresentazionale di tale "succo", ma anche del modo in cui esso può essere estratto dall'esperienza. Sono stati proposti numerosi modelli di memoria semantica; sono riassunti di seguito.
Reti di vario genere giocano un ruolo fondamentale in molte teorie sulla memoria semantica. In generale, una rete è composta da un insieme di nodi collegati tra loro. I nodi possono rappresentare concetti, parole, caratteristiche percettive o nulla di stabilito. I collegamenti possono essere ponderati in modo tale che alcuni siano più forti di altri o viceversa equivalenti. Essi possono avere una "lunghezza" tale che alcuni collegamenti richiedano più tempo per essere attivati rispetto ad altri. Tutte queste caratteristiche delle reti sono state ipotizzate nei modelli di memoria semantica.
Uno dei primi esempi di un modello di rete di memoria semantica è il "Teachable Language Comprehender" (TLC), di Collins e Quillian[3]. In questo modello, ogni nodo è una parola, che rappresenta un concetto (come "uccello"). In ogni nodo è memorizzato un insieme di proprietà (come "può volare" o "ha le ali") così come puntatori (cioè collegamenti) ad altri nodi (come "pollo"). Un nodo è direttamente collegato a quei nodi di cui è una sottoclasse o superclasse (ad esempio, "uccello" sarebbe collegato sia a "pollo" che a "animale"). Quindi, TLC è una rappresentazione di conoscenza gerarchica in quanto i nodi di alto livello, che rappresentano le grandi categorie, sono collegati (direttamente o indirettamente, tramite i nodi di sottoclassi) a molte istanze di quelle categorie, mentre i nodi che rappresentano istanze specifiche sono a un livello inferiore, connessi solo alle loro superclassi. Inoltre, le proprietà sono memorizzate al livello di categoria più alto a cui si applicano. Ad esempio, "è giallo" verrebbe memorizzato con "canarino", mentre "ha le ali" verrebbe memorizzato con "uccello" (un livello superiore) e "può muoversi" verrebbe memorizzato con "animale" (un livello ancora superiore). I nodi possono anche memorizzare la negazione delle proprietà dei loro nodi sovraordinati (ad esempio, "non può volare" verrebbe memorizzato con "pinguino"). Ciò fornisce un'economia di rappresentazione in quanto le proprietà vengono memorizzate solo al livello di categoria in cui diventano essenziali, ovvero al punto in cui diventano caratteristiche critiche (vedi sotto).
L'elaborazione nel TLC è una forma di diffusione dell'attivazione[4]. Cioè, quando un nodo diventa attivo, quell'attivazione si diffonde ad altri nodi tramite i collegamenti tra di loro. In tal caso, il tempo di risposta alla domanda "un pollo è un uccello?" è una funzione di quanto deve estendersi l'attivazione tra i nodi di "pollo" e "uccello", cioè il numero di collegamenti tra i nodi "pollo" e "uccello".
La versione originale del TLC non prevede ponderazione nei collegamenti tra i nodi. Questa versione è risultata applicabile all'elaborazione umana in molti compiti sperimentali, ma non è stata in grado di prevedere che le persone avrebbero risposto più rapidamente a domande riguardanti istanze di categoria più tipiche (o stereotipiche), rispetto a quelle che coinvolgono istanze meno tipiche[5]. Collins e Quillian hanno in seguito aggiornato il modello, includendo connessioni ponderate per tenere conto di questo effetto[6]. Questo TLC aggiornato è in grado di spiegare sia l'effetto di familiarità che l'effetto di tipicità. Il suo più grande vantaggio è che spiega chiaramente l'effetto priming: è più probabile accedere a informazioni dalla memoria se le informazioni correlate (il "priming") sono state presentate poco prima. Esistono ancora numerosi fenomeni di memoria dei quali il TLC non riesce a rendere conto, compreso il motivo per cui le persone sono in grado di rispondere rapidamente a domande ovviamente false (come "un pollo è un meteorite?"), dal momento che i nodi rilevanti sono molto distanti nella rete [7].
Il TLC è un esempio di una classe più generale di modelli noti come reti semantiche. In una rete semantica, ogni nodo deve essere interpretato come rappresentativo di un concetto, parola o caratteristica specifici. Cioè, ogni nodo è un simbolo. Le reti semantiche generalmente non impiegano rappresentazioni distribuite per i concetti, come si può trovare in una rete neurale. La caratteristica distintiva di una rete semantica è che i suoi collegamenti sono quasi sempre diretti (cioè, puntano solo in una direzione, da una base a una destinazione) e i collegamenti sono di molti tipi diversi, ognuno dei quali rappresenta una relazione particolare che può esistere tra due nodi qualsiasi[8]. L'elaborazione in una rete semantica assume spesso la forma di diffusione dell'attivazione (vedi sopra).
Le reti semantiche sono maggiormente utilizzate nei modelli del linguaggio e della comprensione logica, oltre che nell'intelligenza artificiale[9]. In questi modelli, i nodi corrispondono a parole o radici di parole, e i collegamenti rappresentano relazioni sintattiche tra di esse. Un esempio di implementazione computazionale di reti semantiche nella rappresentazione della conoscenza, è il modello di Cravo e Martins (1993)[10].
I modelli a caratteristiche considerano le categorie semantiche come composte da serie di attributi relativamente non strutturati. Il "semantic feature-comparison model", proposto da Smith, Shoben e Rips (1974)[11], descrive la memoria come composta da liste di caratteristiche per concetti diversi. Secondo questa visione, le relazioni tra categorie non sarebbero direttamente recuperate, sarebbero calcolate indirettamente. Ad esempio, i soggetti potrebbero verificare una frase confrontando le serie di funzioni che rappresentano i suoi concetti soggetto e predicato. Tali modelli computazionali di confronto delle caratteristiche includono quelli proposti da Meyer (1970)[12], Rips (1975)[13], Smith, et al. (1974)[11].
Le prime ricerche sulla categorizzazione percettiva e concettuale presupponevano che le categorie presentassero caratteristiche critiche e che l'appartenenza alla categoria potesse essere determinata da regole logiche per la combinazione di caratteristiche. Teorie più recenti hanno ammesso che le categorie possono avere una struttura mal definita o "sfocata" ("fuzzy")[14] e hanno proposto modelli probabilistici o di similarità globale per la verifica dell'adesione alle categorie[15].
L '"associazione" - ovvero una relazione tra due informazioni - è un concetto fondamentale in psicologia, e le associazioni a vari livelli di rappresentazione mentale sono essenziali per i modelli di memoria e cognizione in generale. L'insieme di associazioni tra un insieme di elementi in memoria è equivalente ai collegamenti tra i nodi di una rete, in cui ogni nodo corrisponde a un oggetto unico in memoria. Infatti, le reti neurali e le reti semantiche possono essere caratterizzate come modelli associative di cognizione. Le associazioni sono spesso più chiaramente rappresentate come una matrice N × N, dove N è il numero di elementi in memoria. Pertanto, ogni cella della matrice corrisponde alla forza dell'associazione tra l'elemento di riga e l'elemento di colonna.
Si ritiene generalmente che l'apprendimento delle associazioni sia un processo "hebbiano"; vale a dire, ogni volta che due elementi in memoria sono attivi contemporaneamente, l'associazione tra loro diventa più forte e più è probabile che entrambi gli elementi attivino l'altro.
Un modello standard di memoria che utilizza l'associazione in questo modo è il modello "Search of Associative Memory (SAM)"[16]. Sebbene SAM sia stato originariamente progettato per modellare la memoria episodica, i suoi meccanismi sono indicati per supportare anche alcune rappresentazioni di memoria semantica[17]. Il modello SAM contiene un magazzino a breve termine (STS) e un magazzino a lungo termine (LTS), dove STS è un sottoinsieme attivato brevemente delle informazioni nell'LTS. L'STS ha una capacità limitata e influenza il processo di recupero limitando la quantità di informazioni che possono essere campionate e limitando il tempo in cui il sottoinsieme campionato è in una modalità attiva. Il processo di recupero in LTS è indizio (cue)-dipendente e probabilistico, il che significa che un indizio avvia il processo di recupero e le informazioni selezionate dalla memoria sono casuali. La probabilità di essere campionata dipende dalla forza di associazione tra l'indizio e l'oggetto che si sta recuperando, con associazioni più forti che vengono campionate, e infine una viene scelta. La dimensione del buffer è definita come r, e non un numero fisso, e mentre le voci sono ripetute nel buffer, la forza associativa cresce linearmente in funzione del tempo totale all'interno del buffer[18]. Nel SAM, quando due elementi contemporaneamente occupano un buffer di memoria di lavoro, la forza della loro associazione viene incrementata. Pertanto, gli elementi che si verificano più spesso sono più fortemente associati. Gli elementi in SAM sono anche associati a un contesto specifico, in cui la forza di tale associazione dipende dalla durata di ciascun elemento in un determinato contesto. Nel SAM, quindi, i ricordi consistono in un insieme di associazioni tra gli elementi in memoria e tra elementi e contesti. La presenza di un insieme di elementi e/o di un contesto ha più probabilità di evocare, quindi, alcuni sottoinsiemi degli elementi in memoria. Il grado in cui gli oggetti si evocano l'un l'altro - in virtù del loro contesto condiviso o della loro co-occorrenza - è un'indicazione della relazione semantica degli oggetti.
In una versione aggiornata del SAM, le associazioni semantiche preesistenti sono prese in considerazione tramite l'utilizzo di una matrice semantica. Durante l'esperimento, le associazioni semantiche rimangono fisse mostrando l'ipotesi che le associazioni semantiche non siano significativamente influenzate dall'esperienza episodica di un esperimento. Le due misure utilizzate per misurare la relazione semantica in questo modello sono l'analisi semantica latente (LSA, vedi più sotto) e il Word association spaces (WAS)[19]. Il metodo LSA afferma che la somiglianza tra le parole si riflette attraverso la loro co-occorrenza in un contesto locale[20]. WAS è stato sviluppato analizzando un database di norme di associazione libere. Nel WAS, "le parole che hanno strutture associative simili sono collocate in regioni dello spazio simili"[21].
Alcuni modelli caratterizzano l'acquisizione di informazioni semantiche come una forma di inferenza statistica da un insieme di esperienze discrete, distribuite attraverso un numero di "contesti". Sebbene questi modelli differiscano in specifiche, generalmente impiegano una matrice (Oggetto × Contesto) in cui ogni cella rappresenta il numero di volte in cui un elemento in memoria si è verificato in un determinato contesto. Le informazioni semantiche vengono raccolte effettuando un'analisi statistica di questa matrice.
Molti di questi modelli hanno somiglianze con gli algoritmi utilizzati nei motori di ricerca (per esempio, vedi Griffiths, et al., 2007[22] e Anderson, 1990[23]), anche se non è ancora chiaro se utilizzino realmente lo stesso meccanismo computazionale.
Forse il più rappresentativo di questi modelli è il "Latent Semantic Analysis" (LSA)[24]. Nell'LSA, viene costruita una matrice T × D da un corpo di testo, dove T è il numero di termini nel corpo e D è il numero di documenti (qui "contesto" è interpretato come "documento", e solo le parole o le frasi sono considerate elementi nella memoria). Ogni cella nella matrice è quindi trasformata secondo l'equazione:
dove è la probabilità che il contesto sia attivo, dato che l'elemento sia apparso (questo è ottenuto semplicemente dividendo la frequenza grezza, per il totale del vettore dell'elemento, ).
Questa trasformazione - applicando il logaritmo, dividendo poi per l'entropia dell'informazione dell'elemento su tutti i contesti - fornisce una maggiore differenziazione tra gli oggetti e pesa efficacemente gli oggetti in base alla loro capacità di prevedere il contesto, e viceversa (ovvero, gli oggetti che appaiono in molti contesti, come "il" o "e", saranno pesati di meno, riflettendo la loro mancanza di informazioni semantiche). Una decomposizione ai valori singolari (SVD) viene quindi eseguita sulla matrice , che consente di ridurre il numero di dimensioni della matrice, quindi raggruppando le rappresentazioni semantiche dell'LSA e prevedendo un'associazione indiretta tra elementi. Ad esempio, "gatto" e "cane" potrebbero non apparire mai insieme nello stesso contesto, quindi la loro stretta relazione semantica potrebbe non essere ben catturata dalla matrice originale di LSA . Tuttavia, eseguendo l'SVD e riducendo il numero di dimensioni nella matrice, i vettori di contesto di "gatto" e "cane" - che sarebbero molto simili - migrerebbero l'uno verso l'altro e forse si unirebbero, consentendo così a "gatto" e "cane" di fungere da segnali di recupero l'uno per l'altro. Il grado di correlazione semantica degli elementi in memoria è dato dal coseno dell'angolo tra i vettori di contesto degli elementi (che vanno da 1 per i sinonimi perfetti a 0 per nessuna relazione). In sostanza, quindi, due parole sono strettamente correlate semanticamente se compaiono in tipi di documenti simili.
La neuroscienza cognitiva della memoria semantica è una questione alquanto controversa con due punti di vista dominanti.
Da un lato, molti ricercatori e clinici ritengono che la memoria semantica sia immagazzinata dagli stessi sistemi cerebrali coinvolti nella memoria episodica. Questi includono i lobi temporali mediali (MTL) e la formazione dell'ippocampo. In questo sistema, la formazione dell'ippocampo "codifica" le memorie, o rende possibile la formazione di memorie, e la corteccia immagazzina le memorie dopo che il processo di codifica iniziale è completato.
Sono state presentate prove a sostegno di un'interpretazione più precisa di questa ipotesi. La formazione dell'ippocampo comprende, tra le altre strutture: l'ippocampo stesso, la corteccia entorinale e la corteccia peririnale. Queste ultime due costituiscono la corteccia paraippocampale. Amnesici con danni all'ippocampo, ma con la corteccia paraippocampale relativamente risparmiata, sono stati in grado di dimostrare un certo grado di memoria semantica intatta, nonostante una perdita totale di memoria episodica. Questo suggerisce fortemente che la codifica delle informazioni che portano alla memoria semantica non ha le sue basi fisiologiche nell'ippocampo[25].
Altri ricercatori ritengono che l'ippocampo sia coinvolto solo nella memoria episodica e nella cognizione spaziale. Questo solleva quindi la domanda su dove si può trovare la memoria semantica. Alcuni credono che la memoria semantica sia localizzata nella neocorteccia temporale. Altri credono che la conoscenza semantica sia ampiamente distribuita in tutte le aree del cervello. Per illustrare quest'ultima visione, considera la memoria semantica relativa al concetto di "cane". I ricercatori che hanno la visione della "conoscenza semantica distribuita" credono che la conoscenza del suono tipico del cane risiede nella corteccia uditiva, mentre la capacità di riconoscere e immaginare le caratteristiche visive di un cane risiede nella corteccia visiva. Alcune prove supportano l'idea che il polo temporale bilaterale sia la zona di convergenza per rappresentazioni semantiche unimodali in una rappresentazione multimodale[senza fonte]. Queste regioni sono particolarmente vulnerabili ai danni nella demenza semantica, che è caratterizzata da un deficit semantico globale.
Varie ricerche di neuroimaging mostrano evidenze secondo cui la memoria semantica e la memoria episodica risiedano in aree distinte del cervello. Altre ricerche suggeriscono che sia la memoria semantica sia la memoria episodica fanno parte di un singolo sistema di memoria dichiarativa, ma rappresentano diversi settori all'interno di questo ampio sistema di codifica. Diverse aree cerebrali sono attivate a seconda che si acceda alla memoria semantica o episodica. Alcuni esperti stanno ancora discutendo se i due tipi di memoria provengano da sistemi distinti o se l'imaging neurale faccia apparire questi due sistemi mnemonici come risultato dell'attivazione di diversi processi mentali durante il recupero[26].