10 luglio 2019

Traduttori umani e traduzione automatica neurale (prima parte)

di Elena Starnoni

È ormai abitudine consolidata e diffusa ricorrere all’utilizzo di un traduttore automatico online per far fronte all’esigenza di “decifrare” parole, frasi, testi redatti in una lingua straniera. Si tratta di uno strumento semplice, rapido e naturalmente economico: per utilizzarlo è sufficiente disporre di una connessione a internet. I sistemi di traduzione automatica offrono l’eccezionale possibilità di accostarsi a testi inaccessibili per quanti non padroneggiano, con una certa abilità, una determinata lingua: per decodificare le porzioni di testo cui vogliamo accedere, è sufficiente inserire la sequenza di parole da tradurre nel riquadro predisposto e cliccare sul tasto apposito. Il gioco è fatto.

 

Quanto sono attendibili, tuttavia, le traduzioni generate da questi strumenti? È certamente noto il rischio di ottenere dei testi tradotti in maniera sconclusionata e priva di senso. Per quale ragione? È possibile perfezionare questi sistemi automatici per ottenere una traduzione fedele e aderente al testo originale? Non pochi progressi, in verità, sono già stati ottenuti in questo ambito e i ricercatori continuano a lavorare per ottimizzare le prestazioni dei traduttori automatici. L’opinione del pubblico, invece, è divisa: da un lato, taluni sostengono che questa tecnologia, avanzando sempre più, finirà presto per sostituire del tutto il lavoro del traduttore umano, mentre altri, più scettici, non credono nella capacità di una qualunque macchina di tradurre allo stesso livello, soprattutto per quanto riguarda testi letterari, non disponendo della stessa facoltà di comprendere la realtà e trasmettere sentimenti.

 

Una svolta significativa è avvenuta con l’incontro fra traduzione automatica e intelligenza artificiale, che ha dato il via ad una nuova epoca nello sviluppo delle tecnologie per la traduzione, ovvero quella della traduzione automatica neurale. Grazie a questa tecnologia, il computer è in grado di fare ciò che – si credeva – fosse proprio solo degli esseri viventi: conoscere il mondo, apprendere dall’esperienza, organizzare i concetti acquisiti. Il sistema non si limita più a fornire una traduzione parola per parola, spesso incerta e confusa, del testo che gli viene sottoposto, ma è in grado di fare molto di più: il complesso meccanismo di funzionamento dell’intelligenza artificiale, e, in particolare, dell’apprendimento automatico (in inglese machine learning) gli consente di ragionare sul testo, proprio come farebbe una persona.

 

Nel descrivere il funzionamento di un sistema di traduzione automatica, è necessario delinearne, innanzitutto, i confini intrinsechi. Gli studiosi Gabriele Bersani Berselli e Federico Gaspari individuano tre valori cardine che, quando perseguiti, si escludono a vicenda: l’alta qualità del testo tradotto, il funzionamento completamente automatico e l’applicabilità a qualunque tipo di testo. Ad esempio, se si volesse utilizzare un sistema in grado di tradurre tutti i tipi di testo, bisognerebbe accettare di ricevere traduzioni generiche, ma, per avere un risultato più accurato, sarebbe necessario controllare e limitare il testo di partenza, per esempio mediante un intervento di pre-editing o selezionando un solo genere testuale, rinunciando, quindi, all’applicabilità a qualunque tipo di testo. Invece, per ottenere un prodotto più scorrevole bisognerebbe perfezionare la versione finale, modificandola manualmente con il post-editing.

 

Il punto di inizio della storia della traduzione automatica è riconducibile a un’idea del matematico e scienziato Warren Weaver, che, nel 1949, invitò gli studiosi a fare ricerca sul tema, proponendo di utilizzare tecniche crittografiche per rendere automatica la traduzione, ritenendo che tradurre fosse come decifrare un codice. A partire da questa concezione della traduzione, il primo traduttore automatico utilizzò un’architettura di traduzione diretta, composta da un dizionario monolingue e uno bilingue, più un componente denominato parser. Il dizionario monolingue presentava informazioni grammaticali circa la morfologia e la sintassi delle unità nella lingua di partenza (d’ora in poi chiamata LP), mentre quello bilingue veniva utilizzato dal sistema per trovare le unità equivalenti nella lingua di arrivo (o LA). Il parser identificava la relazione fra le parole del testo di partenza e di arrivo. Prima che venisse prodotta la traduzione, il testo di partenza non era analizzato dal punto di vista linguistico, ma semplicemente sostituito da equivalenti nella lingua di arrivo, eventualmente riordinati, rispecchiando quella che, nella teoria della traduzione, è chiamata traduzione parola per parola. Questo approccio non è in grado di risolvere ambiguità o espressioni metaforiche, ed è più efficiente quando la traduzione è fra lingue simili fra loro, come ad esempio lo spagnolo con l’italiano.

 

Il risultato del prototipo, tuttavia, suscitò un grande ottimismo nei confronti della traduzione automatica: tanto l’opinione pubblica quanto gli addetti ai lavori ritenevano che i sistemi di traduzione completamente automatica sarebbero stati perfezionati a breve, risolvendo definitivamente il problema della comunicazione interlinguistica. Tale ottimismo fu indispensabile per far sì che la ricerca progredisse. Tuttavia generò aspettative forse deleterie per il futuro della traduzione automatica: nel 1959, il matematico e linguista Yehoshua Bar-Hillel arrivò ad affermare l’impossibilità della traduzione completamente automatica con risultati di qualità, per via della natura stessa delle macchine.

 

Una seconda generazione di approcci, invece, è rappresentata delle architetture rule-based, le quali applicano regole morfologiche, sintattiche e semantiche, operando un’analisi del testo nella LP e una sintesi per il testo nella LA. Due sono le principali architetture che utilizzano questo modello: quella basata sull’interlingua e l’approccio transfer. L’idea sottesa a questa architettura, assimilabile al modello traduttivo descritto da Eugene Nida, è che la traduzione è un processo in cui, grazie all’analisi e alla rappresentazione del significato di un testo, è possibile generare un equivalente nella lingua di arrivo. Fra il testo di partenza e quello di arrivo vi è una rappresentazione intermedia: i sistemi transfer hanno due rappresentazioni separate per le due lingue; nel caso del sistema basato sull’interlingua, invece, si tratta di una rappresentazione astratta di un linguaggio universale ed equidistante dagli altri. Come è possibile, però, trovare un linguaggio completamente neutrale che riesca a rappresentare tutti i possibili aspetti della sintassi e della semantica di tutte le lingue?

 

Fino agli anni Ottanta vennero prodotti diversi sistemi di traduzione resi possibili dalla tecnologia rule-based, che aveva il vantaggio di risolvere le discordanze grammaticali e sintattiche fra diverse lingue naturali, trasformando correttamente strutture non parallele, come l’inglese “I miss you” nell’italiano “mi manchi”. Rispetto ad ambiguità di tipo lessicale, strutturale o anaforico, però, questa tecnologia non era esente da difficoltà. Basti pensare ai termini polisemici o omografi, come l’italiano “pesca”, che potrebbe indicare ugualmente lo sport o il frutto: il computer, non potendo comprendere il co-testo, né tantomeno il contesto, sceglierà semplicemente la prima accezione suggeritagli dal dizionario. Inoltre, non sarebbe in grado di districare frasi come “le bambine e le donne incinte”, in cui – grammaticalmente – l’aggettivo si riferisce parimenti a entrambi i sostantivi ma, come saprà chiunque abbia la minima conoscenza ed esperienza del mondo, verosimilmente si riferisce solamente al secondo: per tradurlo correttamente, il computer dovrebbe prima apprenderlo.

 

All’inizio degli anni Novanta si diffuse ancora un nuovo tipo di architettura di terza generazione basato sull’utilizzo di corpora, cioè delle collezioni di testi in formato elettronico. Due tipi di approcci utilizzano questa architettura: quello statistico e quello basato sugli esempi. La TA corpus-based si serve di testi di riferimento congiuntamente alle loro traduzioni, e, allineandoli, confronta l’equivalente di qualunque stringa presente nel testo, ognuna delle quali ha una certa probabilità di essere corretta. In questo modo, le difficoltà riscontrate dai precedenti sistemi nella traduzione di collocazioni, locuzioni, modi di dire, idiomi vengono facilmente superate. L’espressione inglese “break a leg!”, dunque, sarebbe opportunamente sostituita con il modo di dire italiano “in bocca al lupo”.

 

La traduzione automatica example-based, invece, fa un passo in più, integrando i corpora bilingui con un algoritmo che fa corrispondere a ogni sequenza di testo della LP la sequenza nella LA strutturalmente più simile e tale da poter fungere da esempio per generare la nuova traduzione. In altre parole, traduce la frase di partenza imitando la traduzione di una frase simile già presente nel database, accedendo a materiale reperibile anche online. Basandosi solamente su frasi e traduzioni già esistenti, la TA basata sui corpora potrebbe riuscire a disambiguare termini polisemici, ma non saprebbe come comportarsi di fronte a produzioni originali e accostamenti inusuali. Non può, infatti, apprendere autonomamente nuovi concetti, ma solo restare vincolata a traduzioni già svolte.

 

Negli anni successivi, sono stati messi a punto sistemi ibridi in grado di sopperire alle rispettive mancanze di ogni approccio. Come si è visto, molte delle problematicità insorte nei processi di analisi e sintesi di forma e contenuto, così come nel trasferimento da una lingua all’altra, sono state chiarite e risolte. Permangono, tuttavia, ambiguità di carattere semantico e strutturale fra lingue diverse. Ogni lingua, infatti, classifica il mondo intorno a sé in modo proprio, “spezzettando” la realtà in concetti unici e non sempre equiparabili alla modalità con cui altre culture hanno operato questo stesso procedimento. Quando un russo parla di ruka, si riferisce alla parte del corpo che va dalle spalle fino alle dita delle mani, includendo all’interno della stessa parola le idee sia di mano che di braccio. Per una traduzione corretta, non è sufficiente adoperare uno qualunque dei corrispettivi lessicali reperibili in un dizionario, ma bisogna ricercare altri indizi nel testo (o al di fuori del testo) che aiutino a selezionare il referente più adatto nella LA.

 

Invero, a complicare maggiormente il processo di costruzione di un sistema di TA è raccogliere e descrivere le informazioni necessarie per qualunque potenziale traduzione in forma di regole sufficientemente esplicite. Le dimensioni di ogni codice linguistico, con migliaia di parole, regole morfologiche e sintattiche, richiederebbero anni di pianificazione da parte di ingegneri e linguisti prima di poter essere completamente elaborate, senza contare l’aspetto semantico e referenziale sotteso ad ogni codice. Far sì che un computer conosca lo stesso numero di informazioni generalmente condivise, persino le più ovvie, richiederebbe un lavoro infinitamente lungo.

 

A questo bisognerebbe aggiungere che, nel tradurre, si presentano difficoltà anche per l'uomo. Avere competenza nella traduzione significa molto più che essere competenti in due o più lingue: è necessaria preparazione, esercizio e anche predisposizione. Ad un traduttore si richiede di trasformare un testo da una lingua naturale a un’altra: questo non comporta una semplice trasposizione, ma anche un certo numero di scelte stilistiche per far sì che il nuovo testo sia adatto secondo caratteristiche di stile, registro, funzione comunicativa e così via. Tradurre implica anche creatività. Potrebbe essere necessario creare nuovi termini, adattare frasi, modi di dire, usi o situazioni al nuovo contesto e al nuovo pubblico di lettori.

 

Il compito del computer, al contrario, è quello di seguire meccanicamente delle regole, in modo preciso e veloce. La capacità di mediare fra culture per adattarle l’una all’altra non è certamente propria del computer: richiederebbe l’abilità di estrarre significato dal testo, immedesimarsi nel futuro lettore e tradurre di conseguenza. Questo implicherebbe anche una certa conoscenza del mondo, che il computer non ha. Cosa succederebbe, invece, se una macchina per la traduzione automatica riuscisse a imparare?

 

 

Immagine: Foreign languages translation concept, online translator, macro view of computer keyboard with national flags of world countries on keys and blue translate button. Crediti: cybrain / Shutterstock.com

© Istituto della Enciclopedia Italiana - Riproduzione riservata

0