Questo sito contribuisce all'audience di
16 febbraio 2018

Scavare nel passato delle parole: Google Libri e altri strumenti

di Ludovica Maconi

A metà del secolo scorso, il linguista Bruno Migliorini andava compilando a mano centinaia di schede sulle quali registrava prime attestazioni di parole, frutto di lunghe e pazienti letture. Nulla dies sine schedula era il suo motto. I tempi sono oggi cambiati: il lessicografo non si destreggia più tra schedine e appunti su carta, né è obbligato a impegnarsi in letture non sempre fruttuose, ma ha a disposizione strumenti elettronici che facilitano il suo lavoro. Dalla fine degli anni Novanta, infatti, l’informatica è stata applicata con successo alla ricerca di prime attestazioni di parole. Nuove date sono state ricavate dalla consultazione di corpora elettronici, in cd-rom oppure on-line. La LIZ (ora BIZ), che raccoglie su cd mille testi della letteratura italiana, è stata tra i primi strumenti impiegati anche a questo fine lessicografico; più di recente, il catalogo Internet del Sistema Bibliotecario Nazionale (SBN) è stato ingegnosamente usato da Luigi Matt come corpus entro cui attingere retrodatazioni da titoli di pubblicazioni.

 

Un accendisigaro nell’Ottocento

 

Principale risorsa della Rete, di inestimabile importanza, è Google Libri, biblioteca digitale in continua crescita che raccoglie le scansioni di milioni di libri di ogni genere e ogni epoca (la letteratura costituisce solo una minima parte di questo enorme corpus). Nato nel 2004, Google Libri è stato portato all’attenzione dei linguisti per il suo felice impiego nella ricerca di retrodatazioni da Yorick Gomez Gane, in un articolo del 2008 pubblicato negli «Studi linguistici italiani». Da allora molti studiosi hanno iniziato ad usare Google non solo come biblioteca per la lettura dei testi digitalizzati, ma anche per recuperare informazioni sulla storia di parole. Per mezzo di Google, le prime attestazioni fornite dai repertori di riferimento vengono aggiornate addirittura di secoli: molte parole che GRADIT e DELI considerano novecentesche trovano più antica attestazione in libri dell’Ottocento e, talvolta, del Sei e Settecento. Ad esempio, passano dal Novecento all’Ottocento accendisigaro e caporedattore; dall’Ottocento al Seicento bambinaggine, compaesano, indisciplina. Moltissimi sono i termini della medicina e delle scienze presenti in Google in fonti sette-ottocentesche, e per questi termini, dunque, c’è una storia, finora sconosciuta, tutta da scrivere (e così pure per altri linguaggi settoriali): apiretico, eupeptico, glomerulo, splenectomia, tracomatoso; tra le professioni mediche, risalgono alla prima metà dell’Ottocento biologo, ematologo, ginecologo, oftalmologo.

 

OCR un po’ miope

 

Non bisogna però pensare che la ricerca di retrodatazioni sia oggi rapida e non problematica solo perché informatizzata. Al lessicografo è sempre richiesto tanto olio di gomito, anche se, certamente, il nuovo strumento offre un grosso aiuto. Google è un collaboratore veloce ed efficiente, ma un po’ approssimativo, e a volte restituisce risultati sbagliati. L’OCR, infatti, commette errori nella lettura delle parole, cioè nel riconoscimento dei caratteri tipografici (soprattutto nei testi antichi). Inoltre, poiché il computer non sa distinguere i significati, né disambiguare i contesti, imperfezioni sono presenti nella ricerca di omografi, di parole con più accezioni e di nomi propri diventati nomi comuni.

 

La biblioteca di Internet Archive

 

Altro difetto di Google Libri è la mancanza di rigore filologico nella schedatura del materiale, talvolta immesso con riferimenti bibliografici scorretti. Ci si accorge subito dell’errore se riguarda opere famose, come nel caso del libro Cuore di De Amicis, schedato in Google con la data sbagliata del 1822, anno in cui De Amicis non era nemmeno nato; in altri casi, invece, per smascherare l’errore bisogna aprire la fonte e verificare il frontespizio dell’opera. Non ci si può quindi fidare delle fonti non disponibili in visualizzazione completa, soprattutto quando si tratta di riviste, per le quali annate successive sono spesso accorpate in un unico file, e allora vale il principio: se non vedo, non credo. Per credere anche là dove l’occhio si ferma alla visualizzazione snippet (‘ritaglio’), si può usare la biblioteca di Internet Archive, nella quale sono disponibili in libera lettura alcune digitalizzazioni protette da Google, che blocca l’accesso. Il lessicografo deve dunque restare vigile nell’utilizzo del nuovo assistente informatico, e attuare espedienti per ovviare alle criticità dello strumento. D’altro canto, i difetti di Google sono perdonabili a fronte della quantità di dati validi che è capace di restituire.

 

RALIP, la retrodatazione automatica

 

Dal 2012 è disponibile in Internet il RALIP, Retrodatatore automatico del lessico italiano postunitario, ideato da Gianluca Biasci. Questo programma estrae automaticamente retrodatazioni da testi otto-novecenteschi immessi per la ricerca, fornendo un lemmario di parole già retrodatate da verificare nel mare magnum di Google, alla ricerca di possibili miglioramenti. Il controllo in Google dei dati estratti con il RALIP può servire anche per individuare rapporti tra scrittori, testimoniati dalla ripresa di lessico. Retrodatazioni individuate col RALIP nelle Figurine di Faldella, per esempio, trovano in Google documentazione precedente in note fonti dello scrittore scapigliato: Pietro Fanfani, il poeta Giusti e Giambattista Giuliani.

 

ArchiDATA con la Crusca

 

L’Accademia della Crusca, nel recente rilancio della sua attività lessicografica, ha avviato i lavori per ArchiDATA, un archivio elettronico di (retro)datazioni lessicali attinte da Google e dagli archivi dei maggiori quotidiani nazionali (raggiungibile anche dagli “Scaffali digitali” del sito di Crusca). Le nuove datazioni sono qui accompagnate dalla riproduzione fotografica della fonte (frontespizio e passo di riferimento). Importante novità è la datazione delle accezioni. Parole e accezioni sono marcate per ambito d’uso, quindi è possibile accedere all’archivio sezionando variamente il lemmario. ArchiDATA conterrà, in una prima fase, 4.000 retrodatazioni già confluite nello Zingarelli 2017, e andrà progressivamente ampliando il materiale schedato, con l’ambizione di diventare presto centro di raccolta di contributi su retrodatazioni, convogliando in questo sito tutti i risultati che gli studiosi hanno finora affidato a sedi disparate e alla sola pubblicazione su carta.

 

L’«Archivio per il Vocabolario Storico Italiano»

 

Merita infine di essere segnalata una nuova rivista online di lessicografia, che ampiamente si avvale di informazioni ricavate dalle risorse della Rete (compresi blog e siti): nel gennaio 2018 è stato pubblicato il primo volume dell’“Archivio per il Vocabolario Storico Italiano” (AVSI), liberamente scaricabile all’indirizzo www.avsi.unical.it. L’obiettivo dichiarato dalla Direzione della rivista è di “mantenere viva l’opera di revisione e ampliamento dei materiali contenuti nel Battaglia, perfezionando nella sostanza quelli esistenti e integrando il lemmario”. Ogni volume conterrà “voci di vocabolario storico e, in misura minore, contributi propedeutici alla pubblicazione di vocabolari storici delle terminologie settoriali”. Tanti passi si stanno dunque compiendo per raccogliere in grande quantità documenti utili alla storia del nostro patrimonio lessicale, sfruttando le potenzialità dell’informatica senza mai sacrificare il necessario rigore filologico.

 

Ludovica Maconi

(Università del Piemonte Orientale “A. Avogadro”)


© Istituto della Enciclopedia Italiana - Riproduzione riservata