di Arjuna Tuzzi*

Quando si parla di attribuzione d’autore viene naturale ripercorrere le domande che hanno dato vita a casi famosi di autorialità contestata: chi ha scritto le opere di William Shakespeare? C’è davvero l’ombra di Corneille dietro le commedie di Molière? È autentico il Diario postumo di Eugenio Montale, pubblicato a cura di Annalisa Cima? E chi è Elena Ferrante?

Dal copia-incolla al plagio

In anni recenti l’uso di internet ha sicuramente favorito la produzione e la diffusione in formato digitale di testi di ogni genere, ma ha anche indirettamente facilitato pratiche di citazione, imitazione, prestito e copiatura di idee (e parole) prodotte da altri. Dal momento che l’autorialità di un’opera dell’intelletto ha ripercussioni di rilevanza accademica quando si tratta di risultati di ricerca e rilevanza economica quando si tratta di brevetti e opere destinate al commercio, la pratica del copia-incolla ha messo in luce questioni nuove sul diritto d’autore e il plagio.

Qualità contro quantità, una storica querelle

Anche i metodi quantitativi per l’analisi dei testi si sono sviluppati parallelamente alle nuove tecnologie e, a torto o a ragione, sono stati percepiti fin dagli esordi come approcci alternativi e antagonisti rispetto alla lunga tradizione dell’analisi qualitativa, storica, critica, retorica e stilistica. La trasformazione delle informazioni contenute nei testi in dati elaborabili da un computer presenta numerose sfide, questo è vero, e, in nome della praticità, non sempre i metodi quantitativi prestano sufficiente attenzione alla qualità del dato. Tuttavia, se è vero che i metodi quantitativi non sono infallibili, anche l’intervento umano insito nell’analisi qualitativa non è esente da errori e, per ora, la querelle tra le due scuole di pensiero non sembra trovare pace.

Il ventaglio delle procedure quantitative

Nelle analisi quantitative si usano comunemente dati semplici, come la lunghezza delle parole e delle frasi oppure la “frequenza”, intesa come numero di ripetizioni nel testo di parole, punteggiatura, sillabe, caratteri, sequenze di caratteri (n-grams), sequenze di parole (n-word-grams), ecc. Le procedure prevedono scelte che riguardano sia il tipo di dati da adottare sia l’ampiezza della base di riferimento (per esempio quante e quali parole considerare nel calcolo delle frequenze). In termini di quantità, si possono usare tutte le parole a disposizione o solo quelle più frequenti; in termini di qualità si possono scegliere le parole grammaticali (articoli, preposizioni, congiunzioni, pronomi) o le parole di contenuto (es. sostantivi) o anche optare per una selezione arbitraria di quest’ultime (scelta tipica in analisi di tipo semantico come sentiment analysis, opinion mining, web reputation, ecc.).

Quei chilometri tra i testi

In statistica l’attribuzione d’autore viene spesso affrontata come problema di misura del grado di somiglianza o, più semplicemente, di calcolo della “distanza” tra due testi e si può considerare un caso particolare di classificazione automatica (text clustering), una tecnica che cerca di individuare in un insieme di testi quelli con caratteristiche simili. In pratica, è come se un viaggiatore avesse a disposizione solo l’informazione sulla distanza chilometrica tra città e volesse ricostruire la mappa per sapere quali città si trovano nella stessa zona.

Cercare nelle parole grammaticali

Il metodo di calcolo adottato deve far emergere la mano dell’autore ma nella letteratura scientifica si trovano centinaia di proposte diverse, per esempio la distanza del coseno, la Delta di Burrows, la distanza intertestuale di Labbé, e nessuna si può considerare migliore in assoluto. Lo stile di scrittura è determinato dalle parole e dalle strutture grammaticali che, consapevolmente o inconsapevolmente, l’autore sceglie di usare quando costruisce il proprio testo. L’esperienza empirica dimostra che le classi di parole più efficaci nell’attribuzione d’autore sono quelle che normalmente si scartano nella classificazione per argomento e viceversa. Per esempio le parole grammaticali (articoli, preposizioni, pronomi, congiunzioni) sono tra le armi migliori per riconoscere l’autore ma vengono ignorate quando l’obiettivo è studiare i contenuti.

L’esempio raffigurato nel grafico riguarda l’analisi di 14 scrittori contemporanei italiani dei quali disponiamo di almeno tre opere diverse per un totale di 54 romanzi. A partire dalla frequenza delle sole parole grammaticali, è stata prima calcolata la distanza di Labbé per tutte le coppie di romanzi e poi è stato scelto un algoritmo di classificazione per produrre un grafico in grado di rappresentare sinteticamente tutte le distanze simultaneamente. In questo albero rovesciato, le foglie che pendono dagli stessi rami rappresentano romanzi molto simili (evidenziati in rosso e indicati con il cognome dell’autore seguito da un numero progressivo: Calvino1, Calvino2, ecc.) e i rami originati dalle stesse biforcazioni rappresentano gruppi di romanzi più simili tra loro che rispetto ad altri gruppi. La presenza di numerosi gruppi costituiti da romanzi scritti dallo stesso autore dimostra che le parole grammaticali, nonostante non siano portatrici di informazioni di tipo semantico, sono sufficienti per garantire buoni risultati. Le parole grammaticali sono portatrici di informazioni indirette sulla sintassi e, a conti fatti, lo stile personale di un autore è più visibile nella grammatica che nei temi trattati. Proprio perché usate in maniera inconsapevole e indipendente dall’argomento, informazioni testuali apparentemente poco significative, come la frequenza delle forme grammaticali o l’uso della punteggiatura, possono diventare tracce inconfondibili dello stile di un autore (e anche fornire indirettamente agli algoritmi di profilazione tanti altri dati personali, come il genere, l’età, il livello di istruzione, ecc.).

Protocolli non consolidati

La letteratura scientifica suggerisce che, allo stato attuale, non esistono approcci preferibili in assoluto ad altri e che la scelta del metodo dipende pesantemente dal tipo di testo e dagli obiettivi dell’analisi. In questo senso l’attribuzione d’autore e, più in generale, i metodi di analisi quantitativa dei testi soffrono ancora della mancanza di protocolli consolidati e di parametri per confrontare risultati ottenuti con procedure diverse. In altre parole, si tratta di un ambito dove c’è ancora molta ricerca da fare e dove i metodi non si possono ancora considerare pienamente maturi.

Riferimenti bibliografici

1.            Cortelazzo, M.A., Nadalutti, P., Tuzzi, A. (2013), Improving Labbé’s Intertextual Distance: Testing a Revised version on a Large Corpus of Italian Literature, Journal of Quantitative Linguistics, 20(2), 125-152.

2.            Eder, M. (2013). Mind your corpus: systematic errors in authorship attribution, Literary and Linguistic Computing, 28(4), 603-14.

3.            Juola, P. (2015), The Rowling Case: A Proposed Standard Analytic Protocol for Authorship Questions, Digital Scholarship in the Humanities, Advance Access pub. October 19, 2015.

4.            Koppel, M., Schler, J., Argamon, S. (2008), Computational methods in authorship attribution, Journal of the American Society for Information Science and Technology, 60(1), 9-26.

5.            Labbé, C., Labbé, D. (2001). Inter-Textual Distance and Authorship Attribution. Corneille and Molière, Journal of Quantitative Linguistics, 8(3), 213-231.

6.            Mikros, George K. (2013). Authorship Attribution and Gender Identification in Greek Blogs. In I. Obradović, E. Kelih, R. Köhler (Eds.), Selected papers of the VIIIth International Conference on Quantitative Linguistics (QUALICO), Belgrade: Academic Mind.

7.            Rudman, J. (1998), The state of authorship attribution studies: Some problems and solutions, Computers and the Humanities, 31, 351-365.

8.            Savoy, J. (2015), Text Clustering: An application with the State of the Union Addresses, Journal of the American Society for Information Science and Technology, 66(8), 1645-1654.

9.            Stamatatos, E. (2009). A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology, 60(3), 538-556.

10.          Tuzzi A. (2010), What to put in the bag? Comparing and contrasting procedures for text clustering, Italian Journal of Applied Statistics / Statistica Applicata, 22(1), 77-94.

*Arjuna Tuzzi (Cormons, Gorizia, 1970) è associata di Statistica sociale all’Università di Padova. Dottoressa di ricerca in Statistica applicata alle scienze economiche e sociali si occupa prevalentemente di analisi statistica dei dati testuali, strumenti di rilevazione per le indagini sociali, metodi di valutazione e comunicazione politico-istituzionale. È componente del Gruppo Interdisciplinare per l’Analisi Testuale (www.giat.org) e del comitato editoriale del «Journal of Quantitative Linguistics». Dal 2014 è Presidente dell’International Quantitative Linguistics Association (www.iqla.org) e ha diretto le prime due edizioni dell’International Summer School in Quantitative Analysis of Textual Data. Ha pubblicato L’analisi del contenuto (Carocci, 2003), Metodi statistici applicati all’italiano (Zanichelli, 2008, con Manlio Cortelazzo), ha curato Messaggi dal Colle. I discorsi di fine anno dei presidenti della Repubblica (Marsilio, 2007, con Michele A. Cortelazzo) e Recent Contributions to Quantitative Linguistics (De Gruyter, 2015, con Martina Benešová e Ján Mačutek).

Immagine: Gli Algoristi contro gli Abacisti, dalla Margarita philosophica di Gregor Reisch (1503)

Crediti immagine: Houghton Library [Public domain]