03 dicembre 2019

Reti neurali e linguaggio. Le insidie nascoste di un'algebra delle parole

di Davide Bacciu

Può una rete neurale artificiale apprendere le strutture concettuali e semantiche di una lingua? La rappresentazione che ne deriva ha interessanti proprietà matematiche che permettono la manipolazione algebrica di significati e relazioni. Ma è anche facilmente influenzabile da natura, contenuti e pregiudizi dei testi utilizzati per istruirla.

 

Il neurone artificiale e l’apprendimento sub-simbolico

 

Le reti neurali artificiali sono uno dei modelli computazionali più longevi, e discussi, dell’intelligenza artificiale. Nel 1957, Rosenblatt definisce il Perceptron, la prima formalizzazione meccanicistica di un modello di rete neurale formulato da McCulloch e Pitts in un saggio del 1943. Sin dalle origini, questi sistemi hanno tre elementi fondativi:

- le sinapsi, connessioni che trasferiscono l'informazione numerica tra unità neurali, ciascuna associata ad una variabile numerica (il “peso sinaptico”) che modifica l’informazione in transito.

- la funzione di aggregazione, che integra in unico valore gli stimoli in ingresso al neurone, pesati dalle rispettive sinapsi

- la funzione di trasferimento, che misura il grado di attivazione del neurone, propagato ad altre unità della rete attraverso le sinapsi.

 

Il Perceptron, pur nei limiti della sua iniziale semplicità, presenta due aspetti che caratterizzeranno lo sviluppo dei modelli neurali a venire: la natura sub-simbolica e l’approccio adattivo.

Il primo aspetto definisce l’assunzione fondamentale sulla rappresentazione dell’informazione processabile dal neurone artificiale, legandola ad una codifica numerica su cui è possibile operare con assiomi, operatori e strumenti dell’algebra.

Il secondo aspetto identifica la presenza di un processo di apprendimento, regolato da un algoritmo numerico, che modifica il comportamento della rete in risposta a stimoli esogeni, ovvero i dati. Questo aspetto è intimamente legato alla natura sub-simbolica, in quanto il processo di adattamento del neurone artificiale si realizza attraverso semplici operazioni algebriche applicate ai pesi sinaptici - i parametri del modello - che vanno a costituire la conoscenza appresa dalla rete attraverso l’esperienza.  

Entrambi gli aspetti confluiranno in seguito nella più ampia area di ricerca dell’apprendimento automatico contribuendo a definirne i contorni, in particolare, rispetto ai modelli intelligenti improntati al paradigma simbolico.

 

La guerra dei mondi: simbolico e sub-simbolico

 

La questione della rappresentazione dell’informazione è stata centrale nello sviluppo dell’Intelligenza Artificiale. Storicamente il dibattito si è articolato tra sostenitori dell’approccio simbolico e fautori di quello sub-simbolico (numerico).

Nel primo caso, la conoscenza è rappresentata mediante un insieme definito di simboli, il cui significato è sintetizzato dall’uomo che ne cura la codifica mediante un linguaggio formale, e su cui è possibile operare con metodi di natura logica-insiemistica.

Nell’approccio sub-simbolico la rappresentazione della conoscenza è invece veicolata da una collezione ordinata (vettore) di variabili numeriche (componenti). Secondo tale paradigma, la conoscenza è acquisibile automaticamente dal modello a partire dai dati ed è possibile definire relazioni di similarità tra concetti utilizzando funzioni che misurino le differenze numeriche tra i rispettivi vettori.

In tale contesto, il linguaggio fornisce un esempio lampante della presenza, nel cervello, di una rappresentazione organizzata in simboli discreti - le parole del lessico - e di regole grammaticali che ne determinano composizione ed interpretazione. D’altro canto, tale conoscenza simbolica trova radicamento in un tessuto biologico di calcolo - i neuroni - con caratteristiche sostanzialmente sub-simboliche.

 

La semantica delle parole nella rappresentazione sub-simbolica

 

Nel passaggio dall’intelligenza naturale all’universo delle macchine, il linguaggio ha trovato una prima, elementare rappresentazione in cui ogni vocabolo è un simbolo indipendente.  I primi tentativi di rendere tale informazione fruibile al neurone artificiale, e alla sua pretesa di misurabilità, considerano vettori binari i cui elementi sono in relazione univoca con i simboli lessicali. Una parola diventa quindi un vettore nullo, ad eccezione del solo elemento con valore uno in posizione corrispondente alla collocazione del relativo lemma nel dizionario.

Il limite di un tale approccio è evidente. Tutti i lemmi, se confrontati attraverso i rispettivi vettori, si trovano a distanza unitaria (1 bit) dal resto del vocabolario. Secondo questa semantica metrica, il sostantivo pensiero ha la medesima similarità rispetto ai termini idea e gatto.

La povertà di questa codifica numerica del lessico ha avuto l’effetto di limitare per decenni lo sviluppo del trattamento del linguaggio naturale con approcci neurali.  Il punto di svolta giunge però proprio grazie all’incontro di questi ultimi con l’analisi semantica distribuita. L’ipotesi distribuzionale è efficacemente sintetizzata dall’espressione “Conoscerai una parola dalla compagnia che frequenta” (Firth 1957). È proprio tale assioma che fornisce l’intuizione per riconciliare linguaggio e reti neurali artificiali nei cosiddetti word embedding (Mikolov et alii 2013), letteralmente l’immersione delle parole in uno spazio di vettori densi, ovvero i cui elementi possono assumere gli infiniti valori del continuo.

La chiave per questa rappresentazione si trova nelle unità di una rete neurale addestrata a prevedere, per ogni occorrenza di una parola in un corpus linguistico, il contesto dato dai termini che la circondano. La rappresentazione del lemma diventa quindi il corrispondente vettore di attivazione dei neuroni della rete così addestrata, realizzando il radicamento simbolico nell’attività neuronale artificiale osservato in precedenza per il caso biologico. I termini diventano così punti di uno spazio continuo di vettori che tendono alla vicinanza spaziale tanto più sono semanticamente affini.

Ancora più interessante è il radicamento delle relazioni, per cui diviene possibile operare trasformazioni tra simboli manipolandone la codifica numerica. Il toponimo Roma si trova quindi nel medesimo rapporto metrico con Italia rispetto alla differenza tra la rappresentazione neurale di Parigi e Francia. Idealmente, collocandosi nel punto corrispondente alla rappresentazione della parola Germania diventa possibile raggiungere Berlino spostandosi all’interno dello spazio vettoriale lungo la direzione indicata dalla differenza tra la codifica di Italia e quella di Roma. Analogamente questa rappresentazione neurale potrà catturare altre relazioni rilevanti presenti nel corpus linguistico, inclusi i rapporti tra parti del discorso, entità e concetti.

 

Letture e pregiudizio di un neurone artificiale

 

La questione si sposta quindi sull’investigare la capacità di inferire struttura e semantica della lingua senza il supporto di conoscenza a priori. Un esempio in questo senso è la rete neurale che costruisce un modello del linguaggio a partire dai simboli alfabetici (link).  Il modello viene addestrato a prevedere la lettera che segue il carattere corrente all’interno di un testo, grazie anche ad una memoria dinamica degli ingressi precedenti. L’apprendimento si realizza istruendo il modello, lettera per lettera, sull’intero corpus, inducendo nella rete la capacità di rigenerare il testo originale o sue variazioni. La struttura della rete è pensata per organizzare l’informazione linguistica in successivi livelli di astrazione, in cui gli strati di unità più prossime all’input del modello codificano le strutture sillabiche, mentre gli strati superiori si organizzano per sintagmi di complessità crescente. Analizzando le rappresentazioni neurali nei livelli più astratti della rete si nota l’emergere di una strutturazione della conoscenza per cui parole morfologicamente diverse, ma dalla semantica simile, vengono codificate in punti contigui dello spazio delle attivazioni neurali. 

Uno studio recente (Bacciu et alii 2016) ha analizzato l’influenza del testo usato per istruire la rete nel determinare la sua rappresentazione del mondo, considerando un corpus di barzellette in lingua inglese. Lo studio delle similitudini tra codifiche di alcuni termini rappresentativi mostra come vocaboli suscettibili di interpretazione sessista della figura femminile tendano a codifiche neurali simili, indotte dal contesto d’uso nel corpus. D’altro canto, termini con una connotazione legata a ruoli familiari della donna tendono a separarsi dai precedenti e ad essere vicini tra di loro e all’equivalente sostantivo maschile. Comportamenti simili sono riscontrabili per termini assimilabili ad altri fattori polarizzanti, quali etnia e nazionalità. Confermando ancora una volta come ciò che leggiamo contribuisca a formare il modo in cui percepiamo e interpretiamo il mondo, nelle reti neurali biologiche come in quelle artificiali.  

 

Testi citati

F. Rosenblatt, The perceptron: A Probabilistic model for Visual Perception, Procs. of the 15th International Congress of Psychology, 1957.

W. McCulloch, W. Pitts, "A Logical Calculus of Ideas Immanent in Nervous Activity", Bulletin of Mathematical Biophysics 5, 1943.

J. R. Firth, A synopsis of linguistic theory, 1957.

T. Mikolov, I. Sutskever, K. Chen, G. Corrado e J. Dean, Distributed Representations of Words and Phrases and their Compositionality, NIPS 2013.

D. Bacciu, V. Gervasi, G. Prencipe, LOL: An Investigation into Cybernetic Humor, or: Can Machines Laugh, FUN 2016.

 

Immagine: A single-layer feedforward artificial neural network

 

Crediti immagine: Akritasa [CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0)]

 


© Istituto della Enciclopedia Italiana - Riproduzione riservata

0