Quando un linguista decide di studiare un determinato fenomeno in una lingua, deve scegliere con cura da quale tipo di dati partire, e come raccoglierli. Esistono infatti diverse tipologie di dati e diverse metodologie per raccoglierli, ed ognuna di esse ha dei vantaggi e degli svantaggi. Bisogna quindi prendere una decisione oculata, tenendo conto dello scopo e dell'oggetto della propria ricerca, per scegliere il miglior metodo di raccolta dei dati.

Innanzitutto, bisogna decidere se si vuole lavorare su dati della lingua parlata o della lingua scritta. I dati del parlato sono particolarmente utili quando il fenomeno che si vuole analizzare è presente in un dialetto, oppure se viene usato nel parlato ma evitato nello scritto (è il caso di espressioni come A me mi piace, oppure del cosiddetto à che polivalente). Viceversa, un'analisi di testi scritti ci permette di analizzare per esempio le proprietà degli antichi volgari italiani, oppure lo stile scritto attuale, o ancora come scrivono gli italiani nelle chat e nei social network.

Il progetto Microcontact si concentra sui dati del parlato, che vengono raccolti soprattutto in due modi: racconti spontanei in dialetto, registrati e inviati dai parlanti stessi o dai loro figli o nipoti, e inchieste sul campo, in cui i cosiddetti informanti (i parlanti di una varietà, le persone che forniscono i dati) sono intervistati da un(a) linguista. Attraverso questa duplice modalità di indagine si è cercato di combinare i vantaggi di entrambi i tipi di raccolta: il racconto spontaneo permette di ottenere i dati più "puri" possibile (ossia non influenzati dalla presenza del linguista che intervista le persone), mentre l'inchiesta sul campo permette di formulare agli informanti delle domande precise (per esempio a un veneto si potrebbe chiedere: "si può dire Paolo el va a Roma nel suo dialetto?"), e di accertarsi del loro profilo sociolinguistico. I dati forniti in remoto (in crowdsourcing) devono essere ricontrollati durante l’indagine sul campo.

Con questa modalità integrata per la raccolta dei dati si possono ottenere molte informazioni sui fenomeni che ci interessano: nel parlato spontaneo, infatti, certe forme possono non comparire in un breve racconto, e quindi avremmo una lacuna nei dati - se l'informante parla di un episodio della sua gioventù, è probabile che usi molto la prima e la terza persona, ma molto meno la seconda. Le domande mirate aiutano ad avere un paradigma completo, ossia un elenco sistematico di un determinato fenomeno in tutti i suoi contesti.

Il crowdsourcing dei dati

I dati raccolti dai parlanti stessi o dai loro figli e nipoti vengono raccolti e pubblicati sull'atlante interattivo del sito del progetto Microcontact. Questo metodo innovativo si chiama crowdsourcing.

Gli informanti possono scegliere liberamente il tema di cui vogliono parlare: in questo modo non sono influenzati da specifiche richieste da parte nostra, e quindi si esprimeranno con più naturalezza - anche se può rimanere una sensazione di artificiosità, visto che i parlanti sanno di essere registrati.

Le registrazioni in "autonomia" ci offrono un prezioso contributo, innanzitutto perché ci permettono di ottenere dati da molte più zone di quelle che possiamo visitare direttamente, in particolare in Sudamerica, dove gli emigrati italiani sono sparsi in aree molto vaste. Inoltre, ci forniscono un primo inquadramento sullo stato dei dialetti italiani in America, per osservare quanto sono stati contaminati dalle parlate locali. In più, nelle registrazioni spontanee abbiamo l'occasione di cogliere l'uso dei fenomeni indagati nel contesto più ampio del discorso, e quindi anche di vedere se e come l'uso di questi fenomeni sia influenzato dalla funzione che essi svolgono nel discorso. Infine, il_crowdsourcing_ ci permette di individuare la comunità linguistiche con “il giusto profilo”, che per esempio presentino forte attrito per un fenomeno, e che possiamo procedere a intervistare.

La seconda parte di raccolta dei dati sarà invece svolta tramite delle inchieste sul campo. I membri del progetto si recheranno in Argentina, Brasile, Stati Uniti e Québec per intervistare gli emigranti dialettofoni di prima generazione, emigrati nel secondo dopoguerra, nati in Italia e e parlanti nativi del dialetto locale. L’inchiesta si svolgerà con l'ausilio di questionari preparati in precedenza, che saranno divisi in due parti: una conterrà delle frasi in italiano (o in spagnolo, portoghese o francese), che chiederemo agli informanti di tradurre nel proprio dialetto; una nella quale faremo sentire agli informanti delle frasi in dialetto, in cui testeremo vari usi e contesti per il fenomeno indagato. Le frasi che ascolteranno saranno state pronunciate da parlanti dialettofoni in Italia, in modo da ottenerne una versione corretta. I parlanti dovranno poi dire se le frasi che ascoltano sono possibili (ossia grammaticali) nella loro varietà, se non lo sono (quindi agrammaticali) oppure se sono accettabili ma non perfette (in questo caso vengono definite marginali). Questa tecnica di raccolta dei dati è basata sui cosiddetti giudizi di grammaticalità. L’inchiesta sul campo avverrà con l’aiuto di persone locali adeguatamente istruite, in modo da influenzare il meno possibile il parlante.

Entrambe le parti di cui si compongono i questionari rispondono a delle necessità precise: anche se comporta il rischio di influenzare il parlante fornendogli un input in una lingua diversa dal dialetto, la traduzione permette di testare delle ipotesi precise sui fenomeni analizzati. Per esempio, per sapere se l'accusativo preposizionale si usa anche con gli animali (ossia se si possono dire frasi come agge viste al cane), si chiederà all'informatore di tradurre in dialetto la frase Ho visto il cane. In questo modo si ottengono dei dati completi, che contengono tutti i possibili contesti in cui un fenomeno è usato. Questa possibilità invece è data raramente dall'analisi del parlato spontaneo, perché come abbiamo già accennato, certe espressioni potrebbero non essere usate per puro caso, anche se sono perfettamente grammaticali in una lingua.

I giudizi di grammaticalità, invece, sono molto utili per osservare la possibile variazione all'interno di un'unica lingua: in alcuni casi la stessa frase potrebbe essere espressa in due o più modi diversi (in italiano, per esempio, si può dire L'ho sorpreso che rubava o L'ho sorpreso a rubare, con lo stesso significato). Uno solo di questi sarà usato nella traduzione, mentre i giudizi di grammaticalità permettono di testare più possibilità per la stessa frase. Scoprire l'esistenza di varianti è molto importante, e quando se ne scopre una, si potrà andare più a fondo per verificare se le due costruzioni sono davvero completamente uguali da un punto di vista sintattico o semantico (cioè del significato). Se invece il parlante rifiuta una frase come agrammaticale, si avrà una evidenza negativa, che permetterà di escludere la presenza del fenomeno testato in un determinato contesto. È importante sottolineare che nel parlato spontaneo l'alternanza tra due forme emerge più raramente, e l'evidenza negativa non è mai diretta (tranne nei casi di autocorrezione). L'aspetto negativo di questa metodologia è che i parlanti a volte sono convinti di non usare certe espressioni (e quindi le giudicano come agrammaticali), ma nella realtà lo fanno. Di questo bisogna tener conto.

Riassumendo, nel progetto Microcontact cerchiamo di combinare varie metodologie di raccolta dei dati per ottenere più informazioni possibili, e per ovviare ai limiti imposti da ciascuna di esse. In questo modo speriamo di poterci avvicinare il più possibile a un'indagine esaustiva (per quanto possibile in un progetto limitato nel tempo) dei fenomeni di cambiamento linguistico dovuto al contatto.

Per saperne di più

Bauer, Roland. 1996. Strumenti e metodi di rilevamento per la raccolta dei dati di ALD-I, in: Edgar Radtke/Harald Thun (a cura di), Neue Wege der romanischen Geolinguistik, Kiel: Westensee, 445–453.

Benincà, Paola (1988), Piccola storia ragionata della dialettologia italiana, Padova, Unipress.

Chambers, J.K. e Peter Trudgill. 1987. La dialettologia. Traduzione di A. Varvaro. Bologna: il Mulino.

Grassi, Corrado, Alberto Sobrero e Tullio Telmon. 2003. Introduzione alla dialettologia italiana. Roma/Bari: Laterza.

Labov, William. 1972. The social stratification of (r) in New York City Department Stores. In William Labov, Sociolinguistic patterns. Philadelphia: University of Pennsylvania Press, 43-54.

Sakel, Jeanette e Daniel L. Everett. 2012. Linguistic fieldwork. A student guide.Cambridge: Cambridge University Press.

Altri siti di crowdsourcing in area italiana:

Verbalpina, raccolta di termini lessicali usati nell'area alpina: https://www.verba-alpina.gwi.uni-muenchen.de/en/?page_id=1741

Vinko ('Varietà in Contatto'), raccolta di fenomeni fonologici, morfologici e sintattici per il Trentino Alto Adige (e alcune zone limitrofe in Veneto): https://www.dipsco.unitn.it/vinko

*Jan Casalicchio (Merano, 1981) ha conseguito il dottorato in linguistica a Padova con una tesi sulla sintassi delle varietà romanze. In seguito ha lavorato come assegnista di ricerca a Trento, nel progetto europeo AThEME (Advancing the European Multilingual Experience), occupandosi di dialetti e lingue di minoranza del Trentino Alto Adige (in particolare del ladino) e del contatto linguistico (http://www.atheme.eu), e ha trascorso dei periodi di ricerca alla Universitat Autònoma di Barcellona e all'università di Gottinga. Dal luglio del 2017 lavora nel progetto Microcontact come ricercatore postdoc. Jan Casalicchio è anche membro della filiale italiana di Bilinguismo Conta_, un'organizzazione che ha lo scopo di divulgare i vantaggi del bi- e multilinguismo, facendo da ponte tra il mondo della ricerca e la comunità con consigli pratici e attività di promozione (http://www.bilinguismoconta.it)._