22 luglio 2022

Natural Language Processing: un’innovazione per la finanza e non solo

 

 Economia e innovazione

 

 

Quanto sarebbe frustrante condurre una ricerca su Google senza ottenere i risultati sperati? E se assistenti virtuali o chatbot ci suggerissero qualcosa di completamente contrario a quanto richiesto? Quanto confusionaria risulterebbe la nostra casella di posta senza filtri antispam? Questi strumenti rappresentano solo una frazione di ciò che è possibile fare mediante l’uso del Natural Language Processing (NLP).

Il NLP è una branca dell'Intelligenza Artificiale (IA), campo di ricerca che studia la programmazione e la progettazione di sistemi mirati a dotare le macchine di una o più caratteristiche considerate tipicamente umane. Nello specifico, il NLP aiuta i computer a comprendere, interpretare e manipolare il linguaggio umano; grazie ad esso le macchine sono in grado di dare un senso ad un testo, che sia scritto o parlato, ed eseguire diverse attività, tra cui il riepilogo automatico, il riconoscimento dell’umore con cui esso viene fatto e così via.

Nel suo tentativo di colmare il divario tra la comunicazione umana e la comprensione dei computer, il NLP attinge da molte discipline e fa utilizzo di tecniche diverse, che vanno da semplici approcci basati su regole e algoritmi, a metodi statistici che fanno uso del Machine Learning, a sistemi più sofisticati basati sul Deep Learning. Il Machine Learning è un'applicazione dell'IA che fornisce ai sistemi la capacità di apprendere e migliorare dall'esperienza, automaticamente, senza essere programmati in modo esplicito a fare ciò. La possibilità di automatizzare i processi ottenendo comunque risultati accurati lo rende uno dei migliori strumenti che abbiamo al momento per risolvere i problemi propri dell'IA. Il Deep Learning è il ramo più avanzato delMachine Learning. Si tratta di un insieme di tecniche basate su reti neurali artificiali organizzate in diversi strati in modo da elaborare l’informazione in maniera sempre più completa. Esso richiede enormi quantità di dati (big data) già classificati affinché l'algoritmo possa addestrarsi e identificare le correlazioni rilevanti.

Quest’ampia gamma di tecniche risulta necessaria poiché le caratteristiche dei dati basati su testo e voce variano ampiamente e non presentano una struttura regolare. Il linguaggio umano è infatti incredibilmente complesso e diversificato. Ci esprimiamo in infiniti modi, sia verbalmente che per iscritto. Non solo esistono centinaia di lingue e dialetti, ma ogni lingua ha il suo insieme, talvolta unico, di regole grammaticali e sintattiche, di termini e gerghi. Quando scriviamo, spesso lo facciamo in modo errato, abbreviando le parole o omettendo la punteggiatura. Quando parliamo, lo facciamo con un accento, possiamo balbettare o inclinare diversamente il tono e prendiamo in prestito termini da altre lingue. Di conseguenza le informazioni non sono disposte secondo un modello o uno schema preimpostato e pertanto non possono essere archiviate in un tradizionale database relazionale - ossia una base di dati ordinati secondo le relazioni logiche esistenti tra essi - perché non seguono la stessa struttura. In tale contesto l’importanza del NLP deriva dalla possibilità di risolvere l'ambiguità intrinseca alle lingue riconoscendo e rimuovendo il “disturbo” derivante dagli elementi di diversificazione sopra menzionati (dialetti, gerghi) e di attribuirvi un'utile struttura numerica, consentendo ai computer di leggere un testo (o ascoltare il parlato), interpretarlo, misurarne l’umore e determinarne le parti più importanti.

 

I tre livelli del NLP

Per descrivere il modo in cui funziona il NLP, possiamo focalizzarci su tre livelli di operatività.

Al livello più alto troviamo gli “obiettivi”, i risultati che speriamo di raggiungere mediante l’uso del NLP. Alcuni tipici obbiettivi del NLP sono il riconoscimento e la misurazione dell’umore (positivo/negativo, triste/felice) all’interno di un testo, la traduzione automatica di testi o discorsi da una lingua all'altra (language translator) e la sintesi automatica di uno o più documenti (automatic summarization). Nel primo caso si parla di analisi del sentiment, tecnica utilizzata in molteplici settori, dalla politica ai mercati azionari, dal marketing alla comunicazione, dall'ambito sportivo a quello delle scienze mediche e naturali, dall'analisi dei social media alla valutazione delle preferenze del consumatore.

Al livello inferiore si trovano le “tecniche”, che scompongono il linguaggio in pezzi più brevi ed elementari, cercando di comprenderne le relazioni ed esplorando come essi lavorino insieme per creare un significato. Alcune di queste tecniche, essenziali per raggiungere i nostri obiettivi, sono l’identificazione delle parole che fungono da nomi, pronomi, verbi, avverbi e così via (part-of-speech tagging) e il riconoscimento e la classificazione delle “entità nominate” in un testo (nomi di persone, organizzazioni, posizioni, orari, quantità, valori monetari, percentuali).

Infine, all'ultimo livello, troviamo le “attività”. I dati di cui sopra contengono spesso informazioni indesiderate o non importanti a causa delle quali i nostri risultati potrebbero non essere sufficientemente accurati. L'obiettivo delle attività, che insieme costituiscono il cosiddetto Text Pre-processing, è dunque quello di semplificare e trasformare il dato testuale a livello di singola parola, escludendo parte del “rumore” legato a componenti non funzionali agli obiettivi del sistema, e cercando di trattare in modo unitario parole riconducibili allo stesso significato. Alcune delle attività utilizzate per fare ciò sono la conversione del testo in minuscolo (lowercasing), la rimozione di parole che ricorrono frequentemente, usate per costruire frasi (gli articoli, le preposizioni, le congiunzioni o gli aggettivi sono esempi tipici di stop-word), la riconduzione di una parola dalla sua forma flessa alla radice (stemming o lemmatization)[1].

Avendo definito il NLP e illustrato i principali elementi che governano il suo funzionamento, di seguito se ne descrivono le applicazioni nella finanza, uno dei maggiori campi in cui l’utilizzo del NLP è proliferato velocemente.

 

Le applicazioni del Natural Language Processing nella finanza

Come descritto sopra, il NLP consente alle macchine di sezionare, interpretare e riutilizzare il linguaggio umano, sia in forma testuale che vocale, attraverso la scomposizione di dati non strutturati che vengono ri-assemblati per creare dati strutturati oggetto dell'analisi.

Negli ultimi anni la quantità di dati prontamente disponibili nel web è aumentata notevolmente; pertanto, il NLP è diventato uno strumento cruciale e strategico per l'analisi finanziaria. Ormai gli analisti nel mondo – in aggiunta alle più consuete attività di ricerca – dedicano infatti sistematicamente tempo e risorse all'analisi delle reportistiche, delle statistiche, e più in generale dei testi ottenuti dalla stampa o resi pubblici dalle aziende. Ciò consente loro di estrarre informazioni aggiuntive da vasti data lakes non strutturati, dai quali possono emergere informazioni rilevanti per i processi decisionali e di investimento. Il NLP offre quindi l’opportunità di scoprire potenziali “sfumature” di significato dagli importanti risvolti economici.

Un esempio di successo dell’utilizzo del NPL nella finanza è rappresentato dai modelli, alquanto sofisticati, costruiti dal matematico Jim Simons, grazie a cui il suo fondo di investimento, Renaissance Technologies, ha realizzato delle performance considerevoli. In particolare, il fondo tra il 1988 e il 2018 ha realizzato un rendimento medio del 66% offrendo agli investitori esterni due portafogli (Renaissance Institutional Equities Fund e Renaissance Institutional Diversified Alpha) costruiti ricorrendo interamente al trading sistematico. Durante il 2008 il fondo ha raddoppiato la propria capitalizzazione, mentre l’indice S&P 500 ha perso il 38,5%. Tali performance vanno oltre la semplice fortuna. Gran parte del successo deriva infatti dall’utilizzo del NLP, e quindi dal valore estratto dalla grande mole di big data disponibili nella forma di parole scritte o discorsi registrati.

Esistono, ad ogni modo, anche altri possibili utilizzi del NLP nel mondo della finanza. Un primo caso concerne la valutazione del rischio. Tipicamente le banche concedono i prestiti dopo aver valutato il potenziale rischio del prenditore di fondi, ovvero, la sua capacità di ripagare il debito, stimata in base alle sue attitudini alla spesa e alla storia dei precedenti mutui ricevuti. Molti dei dati da valutare sono però spesso indisponibili per la cospicua parte della popolazione mondiale che versa in condizioni di indigenza e ciò preclude l’accesso ai servizi finanziari. L’utilizzo del NLP di base permette di mitigare la mancanza di queste informazioni sfruttando la misurazione dell’attitudine imprenditoriale e la mappatura delle emozioni del prenditore di fondi durante i colloqui per la concessione del prestito, ampliando così le sue possibilità di finanziamento. D’altra parte, essendo il NLP uno strumento ancora in via di perfezionamento, non di rado esso può dar luogo anche a risultati inesatti e a tratti distorti (bias delle IA). Al riguardo, però, vista la velocità con cui questa tecnologia si sta sviluppando, è possibile stimare che in pochi anni essa sarà in grado di rendere più sicuro, preciso e imparziale il processo di concessione dei prestiti.

Un’ulteriore applicazione del NLP riguarda l’analisi del c.d. “financial sentiment”. Molte delle decisioni riguardanti la compravendita o la detenzione di valori mobiliari (azioni, obbligazioni, o quote di fondi) possono essere determinate principalmente dal giudizio prevalente nel mercato relativamente a tali asset. Analizzando attraverso il NLP i contenuti diffusi dagli operatori di mercato sui social media e sulle piattaforme di informazione finanziaria, come Bloomberg o Refinitiv, è possibile stimare efficacemente se e come il mercato reagirà all’annuncio di nuove informazioni, prevedendo dunque se il prezzo di tali strumenti finanziari salirà o scenderà. Si noti, in aggiunta, che l’utilizzo del NLP per gli investitori non si esaurisce alle scelte relative ai singoli titoli, ma vale più in generale per la costruzione e l’ottimizzazione di interi portafogli di investimento.

Il NLP si è rivelato molto utile anche per lo studio delle serie storiche finanziarie, ossia per l’analisi dei movimenti dei prezzi di svariati asset nel corso del tempo. Questo esercizio, fino all’introduzione di tale innovazione, è stato generalmente avvertito come molto complicato poiché anche solo nel corso di una singola giornata i prezzi possono fluttuare in maniera apparentemente irregolare subendo l’influenza di moltissime variabili differenti. Per questa ragione le analisi delle serie storiche sono state soventemente soggette a errori significativi. Combinando il NLP e il deep learning è ormai invece possibile individuare con una certa accuratezza alcune complesse relazioni non lineari presenti nelle serie, riconducibili soprattutto all’influenza di annunci e dichiarazioni pubbliche sulle attività di compravendita, arrivando anche a prevedere l’andamento dei prezzi e a incorporare tali previsioni nelle strategie di trading.

Il NLP potrebbe inoltre essere utilizzato anche dalle maggiori società di revisione nelle loro attività periodiche di auditing per le imprese. Ad esempio, Deloitte ha iniziato ad applicare le tecniche del NLP al fine di identificare le eventuali anomalie nelle transazioni giornaliere delle società esaminate. Attraverso queste prassi è ragionevole supporre che nel prossimo futuro sarà più facile identificare con maggiore efficienza le frodi nelle transazioni concluse e, più in generale, i comportamenti mendaci, come – passando all’ambito della sostenibilità – quelli noti come greenwashing. Si tratta di azioni ingannevoli poste in essere da aziende che mirano a rappresentare un impegno e dei risultati favorevoli per l’ambiente molto superiori a quelli effettivamente posti in essere e realizzati, al fine di beneficiare di una migliore reputazione. In risposta a tale problema Deutsche Bank ha elaborato un sistema che utilizza il machine learning e il NLP per analizzare tutte le informazioni relative ad un’azienda e verificare se il suo modello di business sia effettivamente considerabile come sostenibile.

Infine, il NLP potrebbe essere fruttuosamente utilizzato anche per decodificare meglio, laddove ce ne fosse bisogno, le intenzioni delle banche centrali. Le maggiori autorità di politica monetaria nel mondo, come la Federal Reserve Bank e la Banca Centrale Europea, infatti, mirano a realizzare una comunicazione trasparente che guidi gli operatori di mercato nella formazione di aspettative sufficientemente accurate (anche, ma non solo, sul livello dei prezzi), così da ridurre l’incertezza relativa alle prospettive future. Qualora, in particolari occasioni, gli esponenti di tali istituti non dovessero riuscire in tale intento, risultando ambigui, il NLP – se usato adeguatamente e in buona fede dagli operatori di mercato – potrebbe favorire l’estrapolazione del significato più autentico delle espressioni verbali, anche se inserite in contesti o frasi poco chiare.

 

In conclusione, con l’utilizzo del Natural Language Processing è possibile analizzare e sfruttare numerose serie di dati non strutturati, estrapolabili da testi o da discorsi. Tali dati, possono essere impiegati nello studio dei fenomeni e nei processi decisionali, come avviene nel mondo della finanza e della politica monetaria. Gli utilizzi del NLP sono potenzialmente sconfinati, pertanto, con il perfezionamento della tecnologia, questa innovazione potrebbe trovare una sempre più vasta applicazione tanto in ambiti professionali quanto nella vita di tutti i giorni.

 

 

Bibliografia

Gupta S. (2018).Sentiment Analysis: Concept, Analysis and Applications”. Towards Data Science.

IBM Cloud Education (2020).Natural Language Processing (NLP)”. IBM Cloud Learn Hub.

Jones A. (2021).How the financial industry is using Natural Language Processing”. International Banker.

Keipper S. (2019). “How NLP and machine learning harnesses insights from unstructured data”. EY.

Peterson R. (2019). Can media sentiment help investing strategy?”. Refinitiv Perspectives.

Senyuk L. (2021). 5 Natural Language Processing (NLP) Applications In Finance”. Avenga.

Stichbury J. (2020). Four ways to apply NLP in financial services”. Refinitiv Perspectives.

Srivastav S. (2020). Artificial Intelligence, Machine Learning, and Deep Learning. What’s the Real Difference? ”. Medium.

 

[1] Diversamente dallo stemming, la lemmatization cerca di usare come tema una parola di senso compiuto, il lemma appunto. Se nel testo da analizzare compaiono le parole “correre”, “corro”, “corriamo”, “correremo”, lo stemming ricondurrà tutte queste forme flesse tutte al tema “corr”; mentre la lemmatization le ricondurrà tutte al lemma “correre”. Il risultato dello stemming non è errato, ma quello della lemmatization è migliore.

 

 
Immagine: Bloomberg launches market forecasting application powered by AI, 2012. Crediti: Bloomberg.

© Istituto della Enciclopedia Italiana - Riproduzione riservata