• Istituto
    • Chi Siamo
    • La nostra storia
  • Magazine
    • Agenda
    • Atlante
    • Il Faro
    • Il Chiasmo
    • Diritto
    • Il Tascabile
    • Le Parole Valgono
    • Lingua italiana
    • WebTv
  • Catalogo
    • Le Opere
    • Bottega Treccani
    • Gli Ebook
    • Le App
    • Skill
    • Le Nostre Sedi
  • Scuola e Formazione
    • Portale Treccani Scuola
    • Formazione Digitale
    • Formazione Master
    • Scuola del Tascabile
  • Libri
    • Vai al portale
  • Arte
    • Vai al portale
  • Treccani Cultura
    • Chi Siamo
    • Come Aderire
    • Progetti
    • Iniziative Cultura
    • Eventi Sala Igea
  • ACQUISTA SU EMPORIUM
    • Arte
    • Cartoleria
    • Design & Alto Artigianato
    • Editoria
    • Idee
    • Marchi e Selezioni
  • Accedi
    • Modifica Profilo
    • Treccani X

statistiche linguistiche

di Marco Baroni - Enciclopedia dell'Italiano (2011)
  • Condividi

statistiche linguistiche

Marco Baroni

Definizione

Soprattutto con l’avvento dei corpora (➔ corpora di italiano) e degli strumenti informatici per consultarli, è divenuto possibile studiare con metodi statistici l’andamento di occorrenza di parole e di altre unità linguistiche in vari tipi di testi. Se nell’ambito della linguistica e della lessicografia computazionale tali statistiche linguistiche hanno un campo di applicazione molto ampio, il loro naturale punto di partenza è lo studio della frequenza di parole singole.

Sin dai lavori pionieristici dell’americano George Kingsley Zipf nella prima metà del XX secolo, si sa che la distribuzione della frequenza di occorrenza delle parole, in qualsiasi testo o collezione di testi, tende a seguire un andamento simile: un numero ristretto di parole (tipicamente, parole funzionali quali articoli e preposizioni) ricorre con altissima frequenza, seguito da una assai lunga coda di parole che capitano solo una volta (i cosiddetti hapax legomena; ➔ hapax) o hanno frequenza di occorrenza bassissima.

fig. 1

In fig. 1 illustriamo il tipico andamento zipfiano per i lemmi (ovvero le parole ricondotte alla forma in cui si troverebbero nel dizionario, ignorando dunque differenze di flessione; ➔ lemma, tipi di) del corpus LIP (1993) (circa 500.000 parole di italiano parlato; lemmario disponibile sul sito http://languageserver.uni-graz.at/badip/). Il primo grafico della fig. 1 riporta la frequenza dei lemmi (dove per frequenza intendiamo il numero di occorrenze di un lemma nel corpus prescelto) in funzione del loro rango (il lemma più frequente ha rango 1, il secondo rango 2, ecc.). Come si vede, le parole con i ranghi più bassi – ovvero le più frequenti – hanno un numero di occorrenze molto alto, che cala rapidamente all’aumentare del rango, mentre è presente una lunga serie di parole che compaiono soltanto una volta, o che sono comunque molto rare. Il secondo grafico illustra il medesimo andamento da un’altra prospettiva, ovvero raggruppando i lemmi per livelli di frequenza (cioè raggruppando i lemmi che capitano 1, 2, 3 volte, ecc.), e tracciando la distribuzione del numero di lemmi che corrispondono a ciascun livello di frequenza (sull’asse delle ascisse sono riportati i livelli di frequenza, su quello delle ordinate il numero di lemmi che hanno un certo livello di frequenza). Da questa prospettiva, emerge chiaramente l’alta proporzione di lemmi a frequenza 1 (poco meno del 40% del totale) e si vede come i lemmi che capitano 10 o meno volte costituiscano la grande maggioranza dei lemmi nel corpus (più dell’80% dei lemmi complessivi).

L’andamento illustrato in fig. 1 per il corpus LIP si riscontra anche in testi di dimensioni minori (per es., singole opere letterarie) e (molto) maggiori (corpora di centinaia di milioni o miliardi di parole), e riguarda non solo i lemmi, ma anche la distribuzione delle forme flesse (➔ flessione), di sintagmi (➔ sintagma, tipi di), di sequenze di parole e di costruzioni sintattiche, in tutte le lingue analizzate e indipendentemente dal tipo di testo (➔ testo, tipi di). Da Zipf in poi sono state proposte varie ‘leggi’ matematiche per esprimere l’andamento zipfiano, di cui la più famosa è appunto la legge proposta da Zipf stesso, che predice che la frequenza di occorrenza di una parola (o altra unità linguistica) in un testo/corpus è data da una costante divisa per il rango della parola medesima (Zipf 1949).

Frequenza e corpora

Dal punto di vista linguistico, l’andamento zipfiano mette in risalto la produttività del lessico delle lingue, che fa sì che anche corpora molto grandi non possano campionare l’intero universo delle parole che esistono, almeno in potenza, in una lingua. Da un punto di vista più pratico, tale andamento ha indotto linguisti e lessicografi a creare e utilizzare corpora sempre più grandi, che presentino un numero di istanze sufficienti allo studio di parole relativamente rare.

Si consideri lo schema seguente, che riporta i 10 lemmi più frequenti e un campione di 10 hapax legomena tra i molti estratti dal LIP:

lemmi più frequenti                           lemmi a frequenza 1

il (24.191)                                           capolinea

di (19.915)                                          formativo

essere (15.679)                                  gettone

uno (13.129)                                       grill

a (12.124)                                           inarcare

e (10.188)                                           Lipari

egli (;8.591)                                         mattanza

non (8.480)                                         sottosviluppo

in (8.132)                                            tosse

che (7.786)                                         valorosamente

Per quel che riguarda i lemmi più rari, se la bassissima frequenza di lemmi quali inarcare o sottosviluppo può in effetti essere indicativa del loro scarso utilizzo nella lingua parlata campionata dal LIP, per termini come capolinea, gettone, grill o tosse l’estrema rarità sembra piuttosto dovuta al fatto che il corpus non ha dimensioni o articolazione interna sufficienti a campionarli in maniera significativa. Se un corpus ha molti hapax, possiamo dedurne che, ampliandolo, troveremmo altri hapax, ovvero parole che non si trovavano nel campione originario. In effetti, nel LIP non troviamo alcuna occorrenza di parole intuitivamente non rarissime quali cannone, vena o abbaiare.

Un lessicografo o linguista che volesse studiare i contesti di termini come tosse o vena non potrebbe dunque farlo rivolgendosi a un corpus come il LIP. In un corpus più ampio, come quello di «La Repubblica» (circa 325 milioni di parole di italiano giornalistico; per i dettagli, ➔ corpora di italiano; cfr. il sito http://sslmit.unibo.it/repubblica/), il lemma tosse occorre 933 volte, vena 4599, e gli hapax sono termini che in effetti sembrano molto rari anche all’intuizione (per lo più, parole dalla forma complessa quali ininfluenzabile o non-costrizione, o prodotti di errori nell’elaborazione del corpus). Quindi, un corpus di alcune centinaia di milioni di parole può bastare a studiare il comportamento di una buona proporzione dei lemmi semplici di una lingua come l’italiano, anche se per studiare fenomeni particolari quali i ➔ neologismi, o unità linguistiche più complesse della parola, neppure un campione così grande sarebbe probabilmente sufficiente.

Natura dei lemmi

Rivolgendo ora l’attenzione ai lemmi più frequenti del LIP riportati nello schema visto sopra, si nota che essi hanno una funzione meramente grammaticale, e come tali tendono a essere i medesimi in tutti i testi e corpora della lingua (per es., i lemmi più frequenti nel corpus di «La Repubblica» sono esattamente gli stessi che nel LIP, fatte salve alcune differenze derivanti dal diverso metodo di riconduzione delle forme flesse ai lemmi).

Dunque, studiare le parole più frequenti in assoluto in un testo o corpus porta raramente a osservazioni interessanti. Si utilizzano invece misure d’associazione statistica che, data la frequenza di occorrenza di lemmi (o altre unità linguistiche) in due o più corpora, permettono di identificare i lemmi che capitano in un certo corpus con frequenza statisticamente superiore a quella attesa sulla base della frequenza assoluta dei lemmi e delle dimensioni dei corpora.

1
2
3

Utilizzando questo metodo (più precisamente, la misura d’associazione scelta è la log likelihood ratio, molto comune in linguistica computazionale), e confrontando il LIP, «La Repubblica» e itWaC (un corpus di più di un miliardo e mezzo di parole campionato dal web; cfr. http://wacky.sslmit.unibo.it), si hanno gli schemi riprodotti nelle tabb. , 2 e 3, che contengono rispettivamente i nomi, verbi e aggettivi che sono risultati più caratteristici di ciascun corpus paragonato agli altri (e dunque, nel limite in cui tali corpora sono campioni affidabili dei rispettivi linguaggi, dell’italiano contemporaneo parlato, giornalistico e sul web).

Questi schemi valgono semplicemente come esempi delle potenzialità dei metodi statistici applicati all’analisi dei testi; anche se va notato come essi facciano già emergere che il web, almeno come campionato in itWaC, deve contenere grandi quantità di testi legali e amministrativi.

Per una rassegna più approfondita dello studio statistico degli andamenti di frequenza nei testi, cfr. Baroni (2009), e per un panorama più ampio ma accessibile di vari metodi statistici applicati all’analisi del linguaggio, incluso lo studio della co-occorrenza di termini, cfr. Lenci, Montemagni e Pirrelli (2005).

Fonti

LIP (1993) = De Mauro, Tullio et al., Lessico di frequenza dell’italiano parlato, Milano, ETAS libri (http://badip.uni-graz.at/).

Studi

Baroni, Marco (2009), Distributions in text, in Corpus linguistics. An international handbook, edited by A. Lüdeling & M. Kytö, Berlin, Mouton de Gruyter, 2 voll., vol. 2º, pp. 803-821.

Lenci, Alessandro, Montemagni, Simonetta & Pirrelli, Vito (2005), Testo e computer. Elementi di linguistica computazionale, Roma, Carocci.

Zipf, George K. (1949), Human behavior and the principle of Least-Effort, Cambridge (Mass.), Addison-Wesley.

Vedi anche
sintagma Termine (dal gr. σύνταγμα «composizione, ordinamento») introdotto in linguistica da F. de Saussure per indicare qualsiasi segno in quanto sia costituito da una successione di unità lessicali e grammaticali minori. Nell’uso attuale, unità sintattica di varia complessità e autonomia, di livello intermedio ... neologismo In genere, parola o locuzione nuova, non appartenente cioè al corpo lessicale di una lingua, tratta per derivazione o composizione da parole già in uso o introdotta con adattamenti da altra lingua oppure formata con elementi greci o latini (sono di questo tipo la maggior parte dei n. tecnici, scientifici ... testo Il contenuto di uno scritto o di uno stampato, ossia l’insieme delle parole che lo compongono, considerate non solo nel loro significato ma anche nella forma precisa con cui si leggono nel manoscritto o nell’edizione a cui ci si riferisce. Con valore restrittivo, il corpo originale di uno scritto, distinto ... parola Complesso di fonemi, cioè di suoni articolati, o anche singolo fonema (e la relativa trascrizione in segni grafici) mediante i quali l’uomo esprime una nozione generica, che si precisa e determina nel contesto d’una frase. Linguistica Il termine p. non ammette una definizione unitaria ed esauriente, ...
Indice
  • 1 Definizione
  • 2 Frequenza e corpora
  • 3 Natura dei lemmi
  • 4 Fonti
  • 5 Studi
Categorie
  • LESSICOLOGIA E LESSICOGRAFIA in Lingua
  • LINGUISTICA GENERALE in Lingua
Tag
  • GEORGE KINGSLEY ZIPF
  • LESSICOGRAFI
  • NEOLOGISMI
  • XX SECOLO
  • LIPARI
Vocabolario
statìstica
statistica statìstica s. f. [femm. sostantivato dell’agg. statistico]. – 1. Scienza che ha per oggetto lo studio dei fenomeni collettivi suscettibili di misurazione e di descrizione quantitativa (spec. quando il numero degli individui interessato...
statìstico
statistico statìstico agg. e s. m. (f. -a) [der. di stato2, in quanto il sign. originario dovette essere «che riguarda lo stato, la vita e i problemi dello stato»] (pl. m. -ci). – 1. agg. Di statistica; che ha come oggetto, fondamento o...
  • Istituto
    • Chi Siamo
    • La nostra storia
  • Magazine
    • Agenda
    • Atlante
    • Il Faro
    • Il Chiasmo
    • Diritto
    • Il Tascabile
    • Le Parole Valgono
    • Lingua italiana
    • WebTv
  • Catalogo
    • Le Opere
    • Bottega Treccani
    • Gli Ebook
    • Le App
    • Skill
    • Le Nostre Sedi
  • Scuola e Formazione
    • Portale Treccani Scuola
    • Formazione Digitale
    • Formazione Master
    • Scuola del Tascabile
  • Libri
    • Vai al portale
  • Arte
    • Vai al portale
  • Treccani Cultura
    • Chi Siamo
    • Come Aderire
    • Progetti
    • Iniziative Cultura
    • Eventi Sala Igea
  • ACQUISTA SU EMPORIUM
    • Arte
    • Cartoleria
    • Design & Alto Artigianato
    • Editoria
    • Idee
    • Marchi e Selezioni
  • Accedi
    • Modifica Profilo
    • Treccani X
  • Ricerca
    • Enciclopedia
    • Vocabolario
    • Sinonimi
    • Biografico
    • Indice Alfabetico

Istituto della Enciclopedia Italiana fondata da Giovanni Treccani S.p.A. © Tutti i diritti riservati

Partita Iva 00892411000

  • facebook
  • twitter
  • youtube
  • instagram
  • Contatti
  • Redazione
  • Termini e Condizioni generali
  • Condizioni di utilizzo dei Servizi
  • Informazioni sui Cookie
  • Trattamento dei dati personali