BIOINFORMATICA

XXI Secolo (2010)

Bioinformatica

Sergio Nasi

La bioinformatica, che ha per oggetto la gestione e l’analisi dell’informazione biomedica attraverso i computer, si è sviluppata grandemente sotto l’impulso del Programma genoma umano e delle tecnologie postgenomiche che ne sono seguite. Le sue principali attività riguardano la costruzione e il mantenimento di una varietà di banche dati, lo sviluppo di algoritmi per l’allineamento di sequenze di DNA (DeoxyriboNucleic Acid), RNA (RiboNucleic Acid) e proteine, l’identificazione dei geni e l’assemblaggio dei genomi, la predizione di strutture e quella delle interazioni di acidi nucleici e proteine, la ricostruzione e l’analisi di reti biologiche. Quest’ultimo aspetto si identifica in parte con le ricerche nella systems biology (biologia dei sistemi o sistemica). Quella parte della bioinformatica che è focalizzata sull’analisi statistico/matematica e la costruzione di modelli, piuttosto che sulla gestione dell’informazione, viene anche chiamata biologia computazionale. La bioinformatica è sempre più utilizzata come strumento di ricerca, e il suo studio è parte integrante dei programmi di formazione universitaria. Contrariamente a quanto si pensa comunemente, saper programmare non è essenziale per lavorare in bioinformatica. Sono molto più importanti la capacità di disegnare e gestire siti web, una buona conoscenza della biologia e la familiarità con il ragionamento fisico/matematico.

Un’introduzione ai concetti base in bioinformatica si può trovare nel 2Can Support Portal (www.ebi. ac.uk/2can), all’interno del sito dell’EBI (European Bioinformatics Institute).

La gestione dell’informazione

La gestione dell’informazione è forse l’attività prevalente della bioinformatica, e senz’altro la più utilizzata e apprezzata dalla comunità scientifica. Essa rappresenta un enorme sforzo di collaborazione che coinvolge migliaia di persone. Lo scopo è quello di raccogliere l’informazione biologica in banche dati, annotarla, cioè corredarla di una varietà di informazioni supplementari, e sviluppare i servizi informatici necessari per l’accesso e l’utilizzo dei dati. Di solito i dati e i software di analisi possono essere utilizzati liberamente; fanno eccezione le banche dati commerciali, la cui consultazione ha un costo, e alcune di quelle industriali, il cui accesso è riservato. La via migliore per familiarizzarsi con l’universo bioinformatico ed esplorare facilmente l’oceano dei dati biologici è entrare nei portali bioinformatici, che ospitano le banche dati e offrono una varietà di strumenti di analisi e collegamenti ad altri siti.

I portali bioinformatici

L’NCBI (National Center for Biotechnology Information), creato nel 1988 negli Stati Uniti dalla National Library of Medicine (NLM) dei National Insti­tutes of Health (NIH), cura il più grande portale bioinformatico del mondo. Ospita 35 banche dati (bibliografie, sequenze di nucleotidi e amminoacidi, strutture proteiche, genomi e altro), che si possono consultare rapidamente e in maniera integrata con il motore di ricerca testuale Entrez. Il citato EBI, fondato nel 1992 e che dal 1995 ha sede in Gran Bretagna, è il maggiore centro europeo per la ricerca e i servizi bioinformatici; gestisce banche dati di acidi nucleici, proteine, strutture macromolecolari e vie (pathways) biologiche. GenomeNet è una rete giapponese di dati e servizi biocomputazionali, creata nel 1991 e gestita dal Kyoto university bioinformatics center; ospita dal 1995 il portale KEGG (Kyoto Encyclopedia of Genes and Genomes) che include, tra l’altro, banche dati di geni e proteine (KEGG genes), di componenti chimici (KEGG ligand), di interazioni molecolari e reti di reazioni biochimiche (KEGG pathway), di relazioni di genomi e altre entità biologiche con l’ambiente esterno (KEGG brite). ExPASy (Expert Protein Analysis System) proteomics, creato nel 1993 in Svizzera dal Swiss institute of bioinformatics, offre una varietà di strumenti informatici per l’analisi dei dati sulle proteine; ospita banche dati di sequenze, domini e famiglie proteiche, dati proteomici, modelli di strutture proteiche e pathways metabolici. I principali portali per i genomi sono: Ensembl, in Gran Bretagna, creato congiuntamente nel 1999 dall’EBI e dal WTSI (Wellcome Trust Sanger Institute), e UCSC Genome Browser, negli Stati Uniti, creato nel 2000 presso la University of California, Santa Cruz.

I maggiori laboratori e le più importanti riviste scientifiche hanno sviluppato veri e propri portali di conoscenza, che raccolgono le informazioni relative a particolari aspetti biologici e forniscono strumenti informatici per esplorarli. Ne segnaliamo alcuni creati negli Stati Uniti. Genes to cognition online (G2C), creato nel 2009 dal Cold Spring Harbor Laboratory, è un portale di neuroscienze, focalizzato sui processi cognitivi, le malattie correlate e gli approcci di ricerca. Il Nature publishing group (che pubblica tra l’altro l’omonima rivista) cura Omics gateway, per la biologia su scala genomica, e The signaling gateway (gestito insieme alla University of California, San Diego), focalizzato sulla trasduzione del segnale. La rivista «Science» ha sviluppato Science signaling, orientato su regolazione e segnalazione cellulare, che ospita un settimanale on-line, una banca dati e vari strumenti di analisi; i dati sono organizzati in diagrammi generati dinamicamente.

Le banche dati

Una descrizione approfondita delle banche dati di interesse biologico è pubblicata dal 1993, insieme al primo numero di ogni anno, dalla rivista inglese «Nucleic acids research».

Letteratura scientifica

La banca dati statunitense PubMed, gestita dalla citata NLM, è stata concepita per dare accesso alle citazioni, con relativi abstracts, degli articoli pubblicati su riviste biomediche; in seguito sono stati aggiunti i collegamenti per accedere al testo completo degli articoli (presso i siti web degli editori) e ad altre risorse, come le banche dati dell’NCBI. La fonte primaria per i suoi dati è MEDLINE (MEDical literature analysis and retrieval system onLINE), che contiene citazioni e abstracts di quasi 5500 riviste. In PubMed si trovano oltre 19 milioni di citazioni, risalenti fino al 1949. Alcuni algoritmi consentono l’accesso a molteplici informazioni correlate: Related articles permette di accedere ad articoli affini a quello che si sta guardando (il collegamento viene realizzato attraverso il confronto delle parole presenti nel titolo, nell’abstract e in altre annotazioni degli articoli); Links consente il collegamento a banche dati dell’NCBI o esterne, a riviste scientifiche, a biblioteche, a centri di sequenziamento e a libri di testo che l’NCBI adatta al web. PubMed Central (PMC) è un’estensione di PubMed che mira al ruolo di biblioteca digitale di livello mondiale: è un archivio a libero accesso degli articoli in versione integrale (e non solo degli abstracts, come in PubMed) pubblicati nelle riviste scientifiche che aderiscono al progetto; tale partecipazione è su base volontaria, ma devono essere rispettati alcuni standard editoriali.

Piccole molecole

ChEBI (Chemical Entities of Biological Interest) nel sito dell’EMBL (European Molecular Biology Laboratory)-EBI, KEGG compound (nella citata rete GenomeNet) e PubChem (Public Chemical database, nel portale NCBI) sono banche dati che forniscono un vocabolario delle entità molecolari, intese come piccole sostanze chimiche di interesse biologico, e descrizioni della loro struttura e della loro attività. Contengono milioni di voci e di strutture chimiche.

Geni

La prima banca dati di sequenze nucleotidiche, GenBank, gestita dall’NCBI, è stata creata nel 1982 ed è cresciuta a ritmo esponenziale, raddoppiando ogni 18 mesi. I suoi dati sono stati pubblicati nel 1984 in 2 volumi, nel 1985 in 4 e nel 1986-87 in 8, dopo di che si è rinunciato a stamparli; le sequenze sono arrivate a quasi 116,5 milioni e le basi a 112,3 miliardi. GenBank contiene le sequenze nucleotidiche ottenute dalle persone che ve le depositano. Fa parte del consorzio INSDC (International Nucleotide Sequence Database Collaboration) insieme ad altre due grandi banche dati: EMBL Nucleotide Sequence Database (nota anche come EMBL-Bank), presso il sito dell’omonimo ente europeo, e DDBJ (DNA Data Bank of Japan), i cui archivi contengono oltre 110 milioni di sequenze ciascuno. In queste banche dati le annotazioni sono molto limitate, e possono esserci voci multiple per gli stessi geni. Se la sequenza codifica una proteina, ne viene mostrata la traduzione concettuale, o coding sequence (CDS), alla quale viene assegnato un posto nella banca dati proteica dell’NCBI. Nella banca dati UniProt (Universal Proteine resource), gestita congiuntamente dall’EBI, dall’SIB (Swiss Institute of Bioinformatics) e dal PIR (Protein Information Resource), queste sequenze sono contenute nella sezione TrEMBL (Translated EMBL nucleotide sequence data library). La banca dati RefSeq (Reference Sequence) dell’NCBI è invece una raccolta di sequenze più ristretta, ma annotata con accuratezza, per la quale viene scelta la migliore informazione disponibile; a volte le sequenze vengono importate automaticamente da altre banche dati. Diversamente da GenBank, RefSeq fornisce un solo esempio di ciascuna molecola biologica nei principali organismi. RefSeq è limitata a circa 10.000 organismi, mentre GenBank ha sequenze ottenute da circa 250.000 organismi diversi. La banca dati TPA (Third Party Annotation) permette agli autori che pubblicano nuove evidenze sperimentali di riannotare le sequenze presenti nelle banche dati INSDC; è notevolmente più piccola di GenBank, con circa una sequenza ogni 12.000 in GenBank.

La banca dati miRBase (microRNA dataBase) è il deposito centrale per la genomica dei microRNA, cortissime sequenze di RNA di circa 21 nucleotidi che hanno un ruolo importante nella regolazione dei geni. I microRNA controllano la traduzione in proteine degli mRNA (messengerRNA) di numerosi geni e hanno una parte di rilievo nel differenziamento e nella proliferazione cellulare, nella plasticità delle sinapsi del sistema nervoso e in varie malattie, tra le quali il cancro. miRBase ospita sequenze di quasi 11.000 microRNA da 58 specie diverse, ne cura la nomenclatura e l’annotazione, e fornisce programmi per la predizione informatica degli mRNA bersaglio.

Sequenze e strutture proteiche

UniProtKB (UniProt KnowledgeBase) è la più completa fonte d’informazione su sequenze e funzioni delle proteine. Consta delle sezioni Swiss-Prot e TrEMBL. Swiss-Prot è curata manualmente, con annotazioni molto ricche; TrEMBL è annotata in maniera automatica e contiene le traduzioni concettuali delle sequenze di acidi nucleici presenti nelle banche dati, con piccoli aggiustamenti. Le sequenze sono ‘parcheggiate’ in TrEMBL in attesa di avere un’annotazione manuale ed essere trasferite a SwissProt. UniRef (UniProt Reference clusters) raggruppa sequenze strettamente collegate in un unico documento, per accelerare le ricerche. UniParc (UniProt archive) è invece un enorme parcheggio di sequenze proteiche, che ne riflette la storia e contiene tutti i dati disponibili. PDB (Protein Data Bank), gestita dall’RCSB (Research Collaboratory for Structural Bioinformatics), ospita le strutture delle proteine e di altre macromolecole biologiche, e fornisce una varietà di risorse per lo studio delle loro sequenze, delle loro funzioni e del loro eventuale effetto patologico.

Vocabolario dei geni

I biologi impiegano molto tempo e molte preziose energie in cerca di informazioni nelle banche dati. Ma la grande varietà e variabilità della terminologia impiegata per i geni e le proteine è un freno a una ricerca efficiente. Il progetto GO (Gene Ontology) è nato proprio per soddisfare l’esigenza di una terminologia uniforme: ontologia è un termine del linguaggio informatico usato per indicare una raccolta di categorie riconosciute e condivise. Il progetto ha sviluppato un’ontologia, consultabile attraverso una banca dati, mediante la quale al prodotto di ciascun gene vengono assegnati tre attributi: a) il processo biologico al quale partecipa, come trasmissione del segnale, metabolismo delle pirimidine ecc.; b) la funzione molecolare, per es. attività catalitica, attività chinasica, capacità di legame, legame a un recettore; c) la componente cellulare, che indica la sua localizzazione nella cellula, per es. reticolo endoplasmatico, nucleo, ribosoma. L’attribuzione non è univoca, nel senso che a un singolo prodotto genico può essere attribuita più di una funzione biologica o molecolare, e più di una localizzazione. La terminologia GO facilita le interrogazioni attraverso le varie banche dati.

Motivi di sequenza

Queste banche dati nascono dall’esigenza di identificare, all’interno di un enorme numero di sequenze di geni e proteine, alcune caratteristiche che indichino una specifica funzione, per es. un sito catalitico. Si è osservato come geni o proteine che svolgono una funzione simile presentino una somiglianza in alcune regioni della loro sequenza. Così, geni e proteine che appartengano a una stessa famiglia funzionale dovrebbero contenere nella loro sequenza un motivo ricorrente che caratterizzi la famiglia e la distingua dalle altre. La presenza di tali firme è estremamente utile per assegnare una nuova sequenza a una specifica famiglia di geni oppure di proteine, e poter così formulare ipotesi riguardo alla sua funzione.

PROSITE è una banca dati di domini, famiglie e siti funzionali di proteine, integrata con strumenti informatici atti a identificare i motivi di sequenza. Contiene firme specifiche per più di 1500 famiglie o domini proteici e un’estesa documentazione sulla loro struttura e funzione. Con strumenti computazionali forniti da PROSITE (ScanProsite) o da altre risorse (come PPSearch dell’EMBL-EBI) è possibile identificare rapidamente a quale famiglia proteica nota appartiene una data sequenza proteica. La banca dati JASPAR è rivolta alle sequenze di DNA che regolano l’espressione dei geni: i promotori. Questi sono localizzati subito prima del punto d’inizio della trascrizione del gene e legano una varietà di proteine regolative, dette fattori di trascrizione. La particolare combinazione di fattori legati al promotore determina se il gene sarà acceso oppure spento. JASPAR contiene 174 motivi di sequenza distinti che rappresentano siti preferenziali di legame al DNA di fattori di trascrizione, derivati dalla letteratura scientifica e accuratamente annotati; essi possono essere usati per la scansione di sequenze genomiche.

Genomi

I dati genomici di singoli organismi sono annotati in varie banche dati specializzate, ma sono raggiungibili, come detto, anche attraverso i portali Ensembl e UCSC Genome Browser. Dal momento che la ricerca si focalizza sull’analisi dei genomi, è diventata di importanza critica la presentazione grafica delle sequenze. Non sarebbe di grande aiuto, per es., avere 3 miliardi di lettere di DNA genomico umano mostrate come semplice testo, senza strumenti per interpretarne il significato: sarebbe come presentare la Divina Commedia a qualcuno che conosca poco l’italiano medievale, scrivendo tutte le lettere di fila senza spazi, punteggiatura, suddivisione in parole, metrica e paragrafi. Per ovviare a ciò, i portali genomici hanno sviluppato strumenti di navigazione che forniscono una visualizzazione rapida di una qualsivoglia porzione dei genomi a qualunque scala, con opzioni elaborate di formattazione. I navigatori genomici sono corredati di una varietà di programmi che consentono l’accesso a dozzine di annotazioni accurate e il collegamento diretto a banche dati esterne.

Il progetto ENCODE (ENCyclopedia Of DNA Elements), lanciato nel 2003, ha l’obiettivo di identificare tutti gli elementi funzionali nella sequenza del genoma umano. È iniziato con una fase pilota, focalizzata su una porzione del genoma, i cui risultati sono stati pubblicati nel giugno 2007 (The ENCODE project consortium 2007); conclusa questa fase pilota, si è indirizzato a comporre l’enciclopedia dell’intero genoma.

Espressione genica

L’enorme mole di dati ottenuti con le tecnologie ad alta resa ha fatto sentire l’esigenza di banche dati che li conservino e li rendano accessibili. In particolare, la tecnologia del microarray di DNA, o gene chip, ha consentito di generare migliaia di profili di espressione genica globale, ottenuti misurando la quantità degli mRNA di un grandissimo numero di geni in varie condizioni. GEO (Gene Expression Omnibus) all’NCBI e ArrayExpress all’EBI sono i maggiori depositi pubblici di tali esperimenti. Entrambi immagazzinano i dati nel formato standardizzato MIAME (Minimum Information About a Microarray Experiment) e hanno strumenti di esplorazione on-line. Oltre a ospitare moltissimi esperimenti di trascrittomica, ospitano dati sull’espressione di microRNA, ibridazioni genomiche, SNP (Single Nucleotide Polymorphism), ChIP (Chromatin ImmunoPrecipitation) e profili di peptidi. L’Allen Brain Atlas, contiene la mappa tridimensionale, a scala genomica, dell’espressione di migliaia di geni in tutte le aree del cervello del topo adulto e nel corso dello sviluppo, fino al livello cellulare.

Pathways biologici

La banca dati Reactome permette di esplorare eventi e pathways biologici relativi all’uomo, annotati manualmente. Vi sono raccolti anche gli eventi corrispondenti in altre 22 specie dedotti mediante strumenti informatici. L’informazione è analizzabile in maggiore dettaglio tramite i collegamenti alle banche dati NCBI, a UniProt, Ensembl, UCSC Genome Brows­er, KEGG e GO.

L’esplorazione dei dati

Confronto di sequenze

Sequenziare il genoma di un organismo è un po’ come trovare un libro in una lingua sconosciuta. È una fortuna che il libro sia scritto in un alfabeto noto, però la sequenza delle lettere resta incomprensibile se non conosciamo le parole e la sintassi della lingua nella quale è scritto. Sarebbe di grande aiuto osservare che alcune parole del libro sono simili ad altre che già conosciamo, o trovare una qualche Stele di Rosetta che ne dia la traduzione in una lingua nota. Allo stesso modo, anche se conosciamo l’alfabeto dei nucleotidi, la loro sequenza nel genoma di per sé non dice molto. Per avere qualche idea sul possibile significato di nuove sequenze, sia di acidi nucleici sia di proteine, risulta molto utile confrontarle con altre sulle quali si possiedono già informazioni. La bioinformatica ha sviluppato numerose metodiche che consentono proprio di fare questo.

Allineamenti di sequenze

Il metodo più efficace per confrontare due sequenze consiste nell’allinearle. Ciò viene fatto con algoritmi che analizzano automaticamente, secondo date regole, la corrispondenza tra nucleotidi o amminoacidi di sequenze diverse e attribuiscono all’allineamento un punteggio che ne riflette il grado di somiglianza. I software utilizzati sono spesso corredati di strumenti grafici che permettono di visualizzare gli allineamenti. Questi possono essere globali, se comprendono tutti i caratteri di ciascuna sequenza, o locali, se includono solo la regione o le regioni maggiormente simili. Gli strumenti più efficienti per il confronto di sequenze sono i programmi BLAST (Basic Local Alignment Search Tool), sviluppati nel 1990 presso gli NIH. Ne esiste tutta una serie: la scelta dipende dalla natura della sequenza che si vuole esaminare, dallo scopo della ricerca e dalla banca dati che si interroga. I programmi BLAST, che mettono soprattutto in risalto le regioni di allineamento locale, suddividono la sequenza con la quale si interroga il data-base (sequenza query) e le sequenze in essa presenti in frammenti chiamati parole, e cominciano con il ricercarne le corrispondenze. L’indagine iniziale viene fatta per una parola di lunghezza W che abbia un punteggio di almeno T rispetto alla query. I parametri W e T possono essere variati. Le parole individuate, o hits, vengono quindi allungate in entrambe le direzioni nel tentativo di generare un allineamento che abbia un punteggio maggiore di un valore soglia S. Il parametro T determina la velocità e la sensibilità della ricerca: più è alto, cioè più è forte la somiglianza richiesta, più la ricerca è veloce, ma maggiore è il rischio che si trascurino somiglianze che non sono forti e che possono avere significato biologico. PSI-BLAST (Position-Specific Iterative-BLAST) è il più sensibile tra i programmi specializzati nelle sequenze proteiche, e viene utilizzato quando gli altri BLAST non riescono a trovare corrispondenze significative, per es. tra proteine correlate molto alla lontana. Esso allinea gli hits di una ricerca iniziale effettuata con BLAST per costruire una PSSM (Position-Specific Scoring Matrix), chiamata anche profilo, che assegna un punteggio a ciascuna posizione nell’allineamento. Posizioni molto conservate ricevono un punteggio alto, posizioni poco conservate un punteggio vicino allo zero. Il profilo è utilizzato per una seconda, terza ecc. ricerca BLAST, e i risultati di ciascuna iterazione vengono usati per rifinire il profilo, fino al momento in cui non può es­sere migliorato ulteriormente.

Qualità degli allineamenti

Come detto, la bontà di un allineamento viene rappresentata da un punteggio che è la somma dei punteggi per ciascuna posizione nella sequenza. Nel caso di sequenze di DNA si usano matrici unitarie, fatte solo di 0 e 1: a ogni posizione si dà un punteggio +1 se c’è corrispondenza, un punteggio 0 se manca. Per gli amminoacidi si usano matrici di sostituzione, nelle quali a ciascun residuo amminoacidico nella sequenza query si attribuisce un punteggio che riflette la somiglianza chimica con il residuo corrispondente nella sequenza con la quale viene confrontata. Ciò perché la presenza di residui chimicamente simili può consentire di conservare la funzione della proteina, e così due sequenze proteiche che abbiano residui simili nelle stesse posizioni sono più correlate di sequenze che presentano residui con caratteristiche molto diverse. Esistono vari tipi di matrici di sostituzione, che possono essere indipendenti dalla posizione del residuo (come BLOSUM, BLOcks of amino acid SUbstitution Matrix, e PAM, Point Accepted Mutation) o dipendenti da essa (come le PSSM utilizzate da PSI-BLAST). Così, BLOSUM e PAM attribuiscono uno stesso punteggio a una sostituzione tirosina-triptofano a prescindere dalla posizione nella quale si riscontra. Invece le PSSM danno alla stessa sostituzione un punteggio diverso per ciascuna posizione dell’allineamento. Le posizioni nelle quali a una lettera in una sequenza corrisponde un buco nell’altra si chiamano gaps. Questi hanno un costo, cioè vengono loro attribuiti punteggi negativi. Poiché un singolo evento di mutazione può causare l’inserimento o la cancellazione di più di un residuo, alla presenza di un gap viene data più importanza che alla sua lunghezza: l’esistenza di un gap è penalizzata fortemente, mentre a ciascun ulteriore residuo mancante oltre al primo viene assegnata una penalità minore.

Significatività

Poiché le banche dati contengono moltissime sequenze, si possono presentare casi di buona similarità del tutto casuali; perciò è necessario valutare quanto un allineamento sia significativo. Questo viene fatto attribuendo a ogni allineamento un valore statistico, come P o E. Il parametro P è un numero compreso tra 0 e 1 che indica la probabilità che l’allineamento osservato tra la sequenza query e una particolare sequenza della banca dati sia frutto del caso. Un valore P di 0,05 indica che c’è il 5% di probabilità che l’allineamento sia privo di significato. E indica il numero di allineamenti con punteggi uguali o migliori di quello osservato che potrebbero prodursi per caso. Pertanto, tanto minori risultano P o E, tanto più significativo è l’allineamento. P ed E sono legati dalla relazione E=P×grandezza della banca dati. Ma anche i valori P ed E non sempre bastano per poter dare un significato biologico a un allineamento, ed è spesso opportuna una valutazione critica con criteri di buon senso. Un problema frequente è dato dalle regioni a bassa complessità, quelle con sequenze ripetute, in quanto la somiglianza basata su tale tipo di sequenze è poco affidabile. Per es., sono frequenti i casi di proteine che presentano una grande quantità di glutammine, che spesso hanno un ruolo in varie malattie. Queste proteine hanno però funzioni diverse tra loro. Per rendere meno grave il problema si applicano filtri che mascherino le regioni a bassa complessità.

I motivi

Una delle cose più utili che si possono ottenere dai confronti di sequenza è l’identificazione di brevi zone che indichino una particolare struttura o funzione. Proprio per il loro significato biologico, tali zone mostrano un’elevata conservazione nelle loro sequenze. È come se avessero una firma, che ne rappresenti le proprietà biologiche in maniera sintetica. Come detto, nel linguaggio informatico tali firme vengono chiamate motivi, e possono essere descritti sotto forma di brevi stringhe di testo, dette patterns, o per mezzo di matrici numeriche, i già citati profili o matrici di peso. I patterns sono confinati a una piccola regione di alta omologia, mentre i profili considerano anche sequenze lunghe. Patterns e profili vengono immagazzinati in banche dati come PROSITE (che gestisce i motivi nelle sequenze proteiche) oppure JASPAR (che contiene motivi di sequenze nucleotidiche associati a strumenti informatici).

I patterns di PROSITE vengono inizialmente disegnati attraverso lo studio di un articolo di rassegna su una famiglia proteica. Si costruisce una tavola di allineamento delle proteine discusse nell’articolo, prestando particolare attenzione a residui e regioni che siano importanti per la funzione biologica, come siti catalitici, siti di attacco per gruppi prostetici, siti di legame a uno ione metallico, cisteine coinvolte in ponti disolfuro, regioni implicate nel legame ad altre molecole e così via. Si cerca quindi di trovare una breve sequenza di non più di 4 o 5 residui che faccia parte di una regione importante. Il pattern così creato viene chiamato core pattern, e viene utilizzato per la scansione della banca dati SwissProt. Se un core pattern è in grado di rilevare tutte le proteine prese in esame e nessuna delle altre, o molto poche, ci si accontenta, e lo si prende come una valida firma digitale. Altrimenti si prova a migliorarlo, rendendolo più lungo o prendendo in considerazione un’altra regione della sequenza. Consideriamo come esempio la firma della famiglia NGF (Nerve Growth Factor) che comprende, oltre all’NGF stesso, il BDNF (Brain-Derived Neurotropic Factor) e le neurotrofine NT-3, NT-4/5, NT-6 e NT-7. Esistono 84 sequenze proteiche di vari organismi che ne fanno parte. Il pattern NGF in PROSITE è costituito da 12 amminoacidi nella regione centrale della proteina, e include due delle sei cisteine coinvolte nella formazione di ponti disolfuro. La firma appare così:

[GSRE] - C - [KRL] - G - [LIVT] - [DE] -

- x(3) - [YW] - x - S - x - C

Ciò significa che nella prima posizione del pattern si può trovare uno dei quattro amminoacidi G, S, R, E, mentre nella seconda c’è sempre una C e così via. La x sta a indicare che in quella posizione è possibile trovare uno qualunque dei 20 amminoacidi; x(3) vuol dire tre x di fila.

La firma NGF è particolarmente buona: identifica tutte le 84 sequenze note della famiglia NGF e nessuna delle altre proteine. Tuttavia, a causa della loro grande divergenza di sequenze, un certo numero di domini e famiglie proteiche e di siti di legame sul DNA non può essere rilevato tramite i pattern. Si usano allora i profili, ritenuti più sensibili e affidabili. Un profilo, come detto, è una tabella numerica, la matrice di punteggio, utilizzata per attribuire un punteggio alla similarità tra una qualunque sequenza e il profilo stesso. Chiaramente, regioni di proteine o geni con funzioni diverse hanno profili differenti. La somma dei pesi di ogni amminoacido o nucleotide in ogni posizione dà il punteggio di similarità con il profilo. Se questo è maggiore o uguale a un dato valore soglia, si ritiene che la sequenza in esame possieda quel profilo, ossia che abbia una regione con le caratteristiche strutturali e funzionali da esso identificate. In PROSITE, i profili vengono costruiti a partire dall’allineamento di molte sequenze della stessa famiglia. Per ogni posizione della sequenza, a ogni amminoacido viene attribuito un peso che tiene conto della sua frequenza in quella posizione e della sua somiglianza con altri amminoacidi. La figura 1 mostra l’allineamento tra sequenze amminoacidiche e la relativa tabella dei pesi secondo la metodologia di PROSITE. Ovviamente i residui che sono trovati frequentemente in una posizione, per es. la F nella prima posizione, hanno un peso elevato (nell’esempio, la presenza di F nella prima posizione ha un punteggio di 60). In certe posizioni, può accadere che un residuo che non si trova nelle sequenze allineate riceva un punteggio più alto di uno che è stato trovato nell’allineamento, a causa della sua somiglianza chimica con altri residui trovati in quella posizione. Così la presenza dell’amminoacido A in terza posizione, pur riscontrandosi in una delle sequenze allineate (terza colonna) ha un punteggio −1, che è più basso del punteggio (+10) attribuito all’amminoacido M, che non si è riscontrato lì ma che, da un punto di vista fisico e chimico, è simile ai residui L, I, V, F trovati nelle altre sequenze. Simili estrapolazioni sono impiegate per derivare i punteggi posizione-specifici di inserzioni e delezioni di amminoacidi. Anche il profilo NGF in PROSITE ha una precisione del 100%.

Di grande interesse sono anche i siti di legame sul DNA ai fattori di trascrizione. Le proprietà dei siti di legame per un dato fattore, determinati sperimentalmente, possono essere rappresentate da un pattern che ne descriva sinteticamente la composizione nucleotidica. Il pattern, detto anche sequenza di consenso, è ottenuto allineando numerosi siti. Alternativamente si può costruire un profilo, basato su matrici di peso, che danno una descrizione più quantitativa. Anche in questo caso si parte dall’allineamento dei siti di legame noti a un fattore di trascrizione. In ogni posizione della sequenza si riporta la frequenza con cui si osserva ciascuno dei quattro nucleotidi A, C, T, G: ciò produce una PSSM, chiamata anche PFM (Position Frequency Matrix), poi convertita in scala logaritmica e chiamata PWM (Position Weight Matrix). L’uso delle matrici consente di assegnare a una sequenza un punteggio quantitativo in merito a possibili siti di legame. Le matrici possono essere utilizzate per la scansione di sequenze genomiche, alla ricerca di tutti i possibili siti di legame a fattori di trascrizione.

Data mining

Il data mining è il processo di estrazione di conoscenza dalle ‘miniere’ dei dati, cioè da banche dati di grandi dimensioni, con tecnologie informatiche. Esso non si propone di dare la spiegazione di un determinato fenomeno ma persegue due diversi obiettivi: individuare strutture nascoste nei dati che consentano di ricavare informazioni utili (knowledge discovery) e fare previsioni accurate sull’evoluzione di un fenomeno (prediction). Si è sviluppato moltissimo nei campi dell’economia, della finanza e della bioinformatica. Questo processo avviene in più stadi: l’esplorazione iniziale, la costruzione di un modello, l’esecuzione di algoritmi e l’applicazione a nuovi dati per generare previsioni. Gli algoritmi utilizzano varie tecniche statistico-matematiche, la cui scelta dipende dall’obiettivo che si vuole raggiungere e dal tipo di dati che si devono analizzare.

Prevalentemente, con il data mining si cerca di apprendere qualcosa di significativo dai dati mettendo in evidenza patterns o gruppi di oggetti con caratteristiche simili. Un’importante distinzione è quella tra apprendimento con e senza supervisione. Nel secondo caso non si fa nessuna assunzione a priori su come suddividere i dati, e l’apprendimento avviene così senza una specifica conoscenza dei contenuti da analizzare. Un esempio tipico si ha nei motori di ricerca come Google, Yahoo e altri. Questi utilizzano un algoritmo che, data una o più parole chiave, crea una lista di collegamenti (link) che indirizzano alle pagine web che l’algoritmo ritiene attinenti alle parole chiave immesse. La bontà dell’algoritmo si valuta dall’attinenza dei link ottenuti con l’argomento cercato. In bioinformatica, i metodi di apprendimento non supervisionato sono soprattutto usati quando si è ancora nella fase esplorativa, e si vuole scoprire nei dati qualche struttura non facilmente visibile. In tal caso, l’apprendimento non può essere guidato da una classificazione precedentemente nota. L’apprendimento non supervisionato consente di effettuare operazioni di segmentazione sui dati, cioè di individuare tipologie che presentino regolarità al loro interno in grado di caratterizzarle. Esistono svariate tecniche non supervisionate: raggruppamento gerarchico, k-means (v. oltre), analisi delle componenti principali, analisi delle corrispondenze e una tipologia di reti neurali.

L’apprendimento supervisionato si applica invece ai casi nei quali una particolare classificazione è già nota in un campione di prova (training set), e si vuole costruire un modello che predica questa classificazione in un nuovo campione. Il seguente esempio può forse chiarire. Una volta misurato il profilo di espressione dei geni in un campione di 1000 individui, con le tecniche non guidate si cerca di suddividere gli individui o i geni in gruppi, secondo un criterio di somiglianza. Per es., si possono raggruppare gli individui che hanno un profilo di espressione simile per un certo insieme di geni. Se si considera un altro insieme di geni, è possibile che gli individui vengano suddivisi in gruppi diversi; si possono poi utilizzare questi raggruppamenti per verificare idee o fare ipotesi. Ci si può chiedere se un insieme di geni con un’espressione simile in un gruppo di individui non identifichi soggetti che presentano una stessa malattia, per es. il diabete. Nel caso dell’apprendimento guidato, si è ugualmente interessati a distinguere i soggetti diabetici da quelli che non lo sono. Anche in questo caso si misura il profilo di espressione dei geni, ma con il vantaggio di un’informazione supplementare. Poniamo che sia già noto in precedenza che tra 1000 individui ce ne sono 25 diabetici e altri 25 che non lo sono; i 50 individui, di cui già si conosce se siano sani o malati, costituiscono il training set. Questa classificazione già nota viene utilizzata per cercare di apprendere il modo di distinguere un soggetto diabetico sulla base dell’espressione di geni. Una volta appreso un possibile criterio per distinguerli, lo si applica ai dati di espressione genica allo scopo di individuare quali tra gli altri 950 individui siano sani o malati. Così, l’apprendimento supervisionato consente di effettuare operazioni di classificazione, fa cioè uso della conoscenza acquisita in un campione di prova (fase di addestramento) per classificare nuovi oggetti o prevedere nuovi eventi. Esistono varie tecniche supervisionate, tra le quali gli alberi di decisione, l’analisi dei discriminanti, le macchine a vettori di supporto e le reti neurali.

Cluster analysis

L’espressione cluster analysis denota un certo numero di algoritmi di apprendimento non supervisionato che distribuiscono oggetti in gruppi secondo criteri di similarità; il numero dei gruppi può essere determinato in modo automatico o scelto dall’utente. La similarità tra oggetti viene valutata matematicamente attraverso una misura di distanza: meno gli oggetti sono distanti, più sono simili e più facilmente faranno parte di uno stesso gruppo. Esistono varie misure di distanza, come la distanza euclidea, che è semplicemente la distanza geometrica nello spazio multidimensionale dei dati, o il coefficiente di correlazione di Pearson. La cluster analysis è applicabile a una gran varietà di problemi. In psichiatria, per es., una buona analisi di gruppi di sintomi è essenziale per una corretta diagnosi e una terapia efficace. In bioinformatica, è molto diffusa per l’esame dei dati di espressione genica su larga scala, ottenuti tramite microarrays. Il modo più naturale di organizzare questi dati è raggruppare i geni che hanno una modalità di espressione simile. Il fondamento logico è che tali geni abbiano buona probabilità di partecipare a uno stesso processo biologico. Ciò non implica che ci sia un’interazione diretta tra questi geni, poiché possono essere coespressi geni separati da uno o più intermediari. Si preferisce usare come misura di distanza tra una coppia di geni il coefficiente di correlazione, più conforme all’idea intuitiva di geni coespressi.

L’approccio più comune per i dati di espressione dei geni è il raggruppamento gerarchico, o raggruppamento ad albero, mediante il quale le relazioni tra i geni vengono rappresentate da una sorta di albero, nel quale la vicinanza dei rami riflette il grado di somiglianza. Questo modo di rappresentazione ci è familiare, perché frequentemente usato per gli alberi genealogici e gli alberi evolutivi. Inizialmente, gli algoritmi di raggruppamento gerarchico considerano ogni oggetto come facente gruppo a sé; poi, in piccoli passi successivi, vengono raggruppati gli oggetti più vicini tra loro. Così, a ogni passo si collegano gruppi sempre più grandi di oggetti a mano a mano più dissimili. Alla fine, tutti gli oggetti sono collegati tra loro in un grande albero, o dendrogramma. Il numero dei gruppi (clusters) è determinato automaticamente dall’algoritmo. Nella figura 2A è illustrato il dendrogramma completo dei dati di espressione di 8600 geni: ciascun gene è indicato da una riga di rettangolini colorati, ogni punto temporale da una colonna. Per ciascun gene è rappresentata la quantità di mRNA, ai tempi indicati, relativa alla quantità di mRNA prima del trattamento (tempo zero). Il colore verde indica che l’espressione del gene è minore rispetto al tempo iniziale, cioè il gene è represso; il colore rosso che l’espressione del gene è maggiore, ossia il gene è attivato. L’intensità del colore dà una misura della quantità di repressione (verde) o attivazione (rosso) del gene. Le cinque barrette colorate (A, B, C, D, E) indicano cinque gruppi separati di geni. Nella figura 2B è illustrato il dendrogramma di 517 degli 8600 geni della figura 2A: questo sottoinsieme è stato suddiviso in gruppi di geni in base alla somiglianza del loro profilo di espressione nel corso del tempo.

A volte risulta conveniente suddividere gli oggetti in un numero di gruppi di nostra scelta. Si può allora utilizzare la tecnica k-means che consente di suddividere N oggetti in un numero k di gruppi (k<N) a nostra scelta, sulla base dei loro attributi, e in modo che siano il più possibile distinti. Gli attributi degli oggetti sono rappresentati come vettori, e ogni gruppo viene identificato mediante un punto medio detto centroide. L’algoritmo segue una procedura iterativa. Inizialmente, l’algoritmo crea k gruppi, i cui componenti sono scelti a caso o in maniera empirica, e calcola il centroide di ogni gruppo. Quindi sposta gli oggetti tra i gruppi con lo scopo di minimizzare la variabilità al loro interno e di massimizzarla tra un gruppo e l’altro. Costruisce quindi una nuova suddivisione associando ogni punto al gruppo il cui centroide è più vicino a esso; quindi l’algoritmo ricalcola i centroidi per i nuovi gruppi e così via, finché non trova una soluzione stabile.

I profili di espressione genica di individui con una certa malattia possono presentare una loro firma che può costituire uno strumento potente per diagnosi e prognosi più accurate, come anche per la scelta della cura migliore. È però necessario migliorare i metodi bioinformatici per riconoscere le firme in maniera sicura.

Reti neurali

In molti problemi di data mining vengono impiegate le citate reti neurali, tecniche analitiche modellate sui presunti processi di apprendimento del sistema cognitivo e sulle funzioni neurologiche del cervello. In genere, le reti neurali appartengono alle tecniche di classificazione supervisionata. Sono capaci di predire nuove osservazioni su specifiche variabili, dopo aver eseguito un processo di apprendimento sui dati preesistenti. Il primo passo è disegnare l’architettura della rete, i cui nodi vengono chiamati neuroni; la struttura della rete dovrebbe corrispondere a quella del fenomeno studiato. Poiché quest’ultimo di solito non è ben noto, il disegno della rete è arduo, anche se facilitato da software specifici che impiegano tecniche di intelligenza artificiale. Una volta architettata la rete, essa viene sottoposta a un addestramento supervisionato, un processo iterativo nel quale i pesi della rete, cioè la forza delle connessioni tra un neurone e l’altro, vengono aggiustati per permetterle di riprodurre in maniera ottimale (fitting) il risultato, già noto, ottenuto dai dati sui quali viene addestrata. Dopo l’addestramento, la rete è pronta a essere usata per generare predizioni su nuovi dati. Esistono anche reti neurali non supervisionate, chiamate reti neurali autoorganizzanti o reti di Kohonen.

Modelli di Markov nascosti

Un modo diffuso per riconoscere patterns è ricorrere a modelli probabilistici quali gli HMM (Hidden Markov Models). Questi sono adatti al riconoscimento di sequenze di eventi, e vengono comunemente applicati al riconoscimento del linguaggio parlato o della scrittura manuale da parte di un computer o di un telefono cellulare. In bioinformatica, tali modelli sono molto usati per individuare omologie, o per predire le regioni codificanti nella sequenza del genoma e le modalità di ripiegamento delle proteine. Derivano il loro nome dalla catena di Markov, una successione di stati nella quale il passaggio da uno stato presente a uno futuro avviene con una probabilità che dipende solo, o quasi, dallo stato presente, e non da come ci si è arrivati, ovvero dal suo passato. In altre parole, lo stato presente del sistema permette di predire il comportamento futuro, mentre la storia precedente ha scarsa influenza. Il tipo più semplice sono i lanci di una moneta, il cui risultato è testa o croce con uguale probabilità, indipendentemente dai lanci precedenti. Si fa ricorso spesso alla teoria dei processi di Markov: per es., per prevedere il susseguirsi del tempo atmosferico, stimare la dinamica macroeconomica, o dare un rango, cioè un ordine, alle pagine web in una ricerca su Internet. Così Google utilizza l’algoritmo PageRank per assegnare un peso numerico alle pagine web, allo scopo di misurarne l’importanza relativa. L’algoritmo si basa soprattutto sul concetto di popolarità, ovvero sulla frequenza con la quale si visitano i siti nei quali possono essere presenti documenti che ci interessano. Nella figura 3A si può osservare il PageRank usato da Google per ordinare i risultati di una ricerca su Internet: il sito C, collegato solo con B, ha un rango molto più alto e, nella lista, apparirà prima del sito E, che è invece collegato con molti altri siti. Questo avviene perché C ha una connessione molto forte con B, che è il sito più visitato. Ciò vuol dire che un utente che va in B, molto probabilmente andrà anche in C.

Gli HMM sono più complicati, perché in questo caso gli stati del sistema cui siamo interessati non sono visibili direttamente, ma è possibile solo osservare eventi che ne dipendono con una certa probabilità. Per maggiore chiarezza si fornisce un esempio. Siamo interessati a conoscere gli stati d’animo di un nostro amico. Non possiamo vederli direttamente, poichè sono nascosti. A essi però sono associati, con una certa probabilità, i suoi comportamenti, che invece possiamo osservare direttamente. Per es., il nostro amico è allegro: ride, oppure va a fare una gita al mare. Se è triste adotterà comportamenti diversi. Attraverso i comportamenti, cioè gli eventi osservabili, possiamo avere così informazioni sugli stati d’animo sottostanti, cioè gli stati nascosti. L’obiettivo degli HMM è proprio quello di determinare gli stati nascosti dagli eventi osservabili, e di individuare i parametri del modello, ovvero le probabilità di transizione da uno stato al successivo. Una volta disegnato il modello, questo può essere impiegato per ulteriori analisi e previsioni su nuovi eventi. Nella figura 3B, X1, X2 e X3 sono gli stati nascosti che si vogliono predire; y1, y2, y3 e y4 sono gli eventi osservabili, gli unici che possono essere misurati direttamente. Le lettere a e b indicano le probabilità di transizione da uno stato all’altro: per es., a12 è la probabilità con cui il sistema passa dallo stato X1 allo stato X2, e b12 è la probabilità che lo stato nascosto X1 causi l’evento y2.

Dove trovare gli algoritmi

Le tecniche statistiche e matematiche utili per l’esplorazione di dati biologici possono essere eseguite per mezzo di vari pacchetti commerciali. Tra questi, MATLAB (MATrix LABoratory) ha una sezione dedicata alla bioinformatica, e consente di analizzare e visualizzare dati genomici e proteomici, e di costruire modelli di sistemi biologici. Esistono programmi specifici per l’analisi dei dati di microarrays, per es. GenePix, o per le analisi proteomiche. Un’altrettanto, se non più valida, alternativa è utilizzare pacchetti non proprietari, alcuni dei quali hanno sezioni avanzatissime per l’analisi di dati biologici. Il leader è senz’altro R (all’interno del progetto omonimo), un ambiente software di libero accesso all’interno del quale è possibile implementare una varietà di tecniche statistiche e grafiche, quali modellizzazione lineare e non lineare, test statistici classici, analisi di serie temporali, algoritmi di classificazione e raggruppamento e così via. La versione base può essere facilmente ampliata attraverso software specializzati ottenibili tramite la famiglia di siti Internet CRAN (Comprehensive R Archive Network). Un progetto associato a R e focalizzato sulle applicazioni bioinformatiche è Bioconductor, che fornisce strumenti per l’analisi dei dati genomici. A livello italiano è stato sviluppato ADaMSoft, un software open source che si propone di rendere accessibili in modo semplice le metodologie statistiche e di data mining.

Reti e modelli

Le reti

È sempre più sentita la necessità di integrare le moltissime informazioni biomolecolari a un livello superiore, quello della funzione biologica di cellule, tessuti e interi organismi. Il funzionamento delle cellule viventi è governato da reti complesse di entità biologiche che interagiscono tra loro, come geni, metaboliti, proteine. Queste enormi reti sono organizzate in sottoreti, ciascuna delle quali si occupa di un particolare aspetto della funzione di una cellula: ciclo cellulare, trasmissione del segnale e così via. Tali sottocircuiti, costituiti da molti elementi che interagiscono per implementare un’attività della cellula, sono chiamati moduli funzionali. La ricostruzione dell’architettura delle reti e dei moduli, che richiedeva una lunga e laboriosa raccolta di moltissimi dati sperimentali, è ora resa molto più spedita dalle tecnologie che permettono di rilevare rapidamente su scala genomica l’espressione dei geni e delle proteine e le loro modificazioni in varie condizioni: i microarrays, il deep sequencing (tecniche di sequenziamento di nuova generazione), le tecnologie proteomiche, l’analisi di SNP (Single Nucleotide Polymorphism), l’analisi comparativa di genomi, il ChIP on chip, l’epigenomica. L’inferenza della struttura e dei meccanismi di controllo di vari tipi di reti biologiche è un punto focale della bioinformatica e della biologia dei sistemi. Comunemente, le reti vengono dedotte in maniera supervisionata a partire da un insieme di interazioni molto sicure, derivate da dati sulle proteine o l’espressione genica. Le reti sono rappresentate come grafi, in cui i nodi sono i geni o le proteine e gli archi le interazioni. Sono disponibili vari strumenti per disegnare e visualizzare i diagrammi delle reti, per es. Cytoscape, CellDesigner e MIM (Molecular Interaction Maps). Capire come una rete porti avanti una funzione biologica non è intuitivo, visto il gran numero dei suoi componenti e la complessità delle interazioni. Sono necessari modelli computazionali, spesso derivati da discipline come l’ingegneria dei sistemi, la matematica, la statistica, l’analisi dei sistemi complessi. Un buon modello di rete consente di simulare il comportamento cellulare sotto una varietà di stimoli e di facilitare l’ingegnerizzazione di nuovi farmaci. I modelli su scala genomica danno una descrizione onnicomprensiva, sebbene concisa, delle funzioni cellulari, mentre, con i modelli su scala più piccola, è possibile avere dettagli sufficienti per simulare il comportamento dinamico della rete.

Le sequenze regolative dei geni

Con uno stesso numero di lettere dell’alfabeto o di parole si possono scrivere cose diversissime, per es. un sonetto di Dante e la lista della spesa. Allo stesso modo, l’informazione presente nei geni può essere combinata in svariati modi per implementare attività molto diverse. Lo studio dei genomi ha reso evidente che la loro lunghezza e il numero dei geni che contengono sono molto meno importanti del modo nel quale i geni vengono regolati e combinati tra loro. Il grano ha un genoma più grande di quello dell’uomo e contiene all’incirca lo stesso numero di geni, ma non si può certo dire che sia più evoluto, e fa certamente cose molte diverse. Decifrare i meccanismi di controllo dell’espressione dei geni è essenziale per analizzare il comportamento delle reti. Questa considerazione, insieme alla grande quantità di dati di espressione genica su larga scala, ha motivato la ricerca di metodi per l’analisi delle sequenze del DNA che regolano l’espressione dei geni. Storicamente, gli algoritmi per l’identificazione delle regioni regolative dei geni sono stati scarsamente affidabili a causa del numero troppo elevato di falsi positivi che tende a rendere futile la stragrande maggioranza delle previsioni: è il cosiddetto teorema della futilità. Si stanno sviluppando metodi che velocizzino e rendano meno incerte le previsioni, anche se rimane necessaria una verifica di laboratorio.

La sequenza di DNA che controlla l’espressione di un gene, il promotore, si trova nelle vicinanze del gene, di solito all’estremità 5′. Il promotore lega una serie di proteine regolative che permette o meno l’accesso al gene del macchinario che produce l’mRNA. Molti algoritmi per la predizione di promotori fanno riferimento a una raccolta annotata di questi, l’EPD (Eukaryotic Promoter Database). Le annotazioni includono la descrizione del TSS (Transcription Start Site), riferimenti ad altre banche dati e riferimenti bibliografici. La predizione di promotori ancora sconosciuti si basa sull’identificazione dei TSS. Molto spesso questi abbondano di dinucleotidi CpG (Cytosine-phos­phate-Guanine): nell’uomo, circa il 60% dei promotori è situato in prossimità di isole CpG. I metodi più importanti basati sulle frequenze dei dinucleotidi CpG sono Eponine e FirstEF (First Exon Finder). FirstEF identifica le regioni che presentano una maggiore concentrazione di dinucleotidi CpG rispetto alle regioni circostanti. Eponine usa una rete neurale che analizza le frequenze di sequenze nucleotidiche più lunghe. Per identificare i promotore privi di isole CpG si devono utilizzare i dati sui trascritti, cioè gli mRNA. Questi sono accessibili attraverso i navigatori genomici o per mezzo di DBTSS (DataBase of human Transcriptional Start Sites), che attribuisce TSS a moltissimi geni basandosi sulle sequenze determinate sperimentalmente dell’estremità 5′ di cDNA di lunghezza completa. Contiene strumenti analitici per valutare la possibile presenza di siti di legame a fattori di trascrizione e per esaminare la conservazione evolutiva o la specificità di specie.

Molti metodi bioinformatici per la previsioni dei promotori e dei siti di legame a fattori di trascrizione ricercano le impronte filogenetiche, ossia somiglianze di sequenza in specie diverse. Ciò sottintende due ipotesi, generalmente corrette. Una è che la regolazione di geni ortologhi in specie non troppo diverse sia simile, l’altra è che le mutazioni all’interno di regioni regolative si accumulino più lentamente. Di conseguenza, il confronto tra le sequenze di geni ortologhi fornisce un’indicazione sui segmenti che regolano l’espressione dei geni. Un algoritmo che esamini l’impronta filogenetica necessita di tre componenti, che consentano di definire le sequenze ortologhe, di allinearle e, quindi di visualizzare i segmenti con conservazione significativa. Risorse bioinformatiche che forniscono ortologhi tra varie specie includono HomoloGene e CDD (Conserved Domain Database), entrambi dell’NCBI. Per gli allineamenti possono essere usati gli algoritmi BLASTZ (derivato dal citato BLAST) e LAGAN (Limited Area Global Alignment of Nucleotides). Il primo mira a brevi segmenti di similarità, costruendo allineamenti locali; l’altro cerca una somiglianza ottimale attraverso un’intera coppia di sequenze: vengono prima generati allineamenti locali, come in BLASTZ, poi si fa un allineamento. Ci sono vari strumenti per la presentazione grafica dei dati, come VISTA e PipMaker. Sebbene la rappresentazione grafica sia utile, un’analisi computazionale dei patterns di conservazione osservati è essenziale. Nuovi metodi utilizzano HMM per predizioni più accurate.

Previsione di siti di legame funzionali

Identificato un promotore, è importante capire quali fattori di trascrizione vi si legano per regolarlo. Solitamente i fattori di trascrizione mostrano preferenze per specifiche sequenze, che possono essere catturate sotto forma di motivi di sequenza. Questi ultimi, a loro volta, possono servire a predire i possibili siti di legame per un dato fattore di trascrizione nelle sequenze genomiche. I motivi di legame ai fattori di trascrizione sono raccolti nelle banche dati JASPAR e TRANSFAC, che permettono anche di individuare i siti capaci di legare i fattori di trascrizione in una qualunque sequenza di DNA. Ma c’è un problema. I siti individuati sono capaci di legare i fattori di trascrizione in vitro, ma non è detto che lo facciano all’interno della cellula. Il motivo è che la struttura della cromatina nei dintorni del promotore influenza fortemente la capacità di un fattore di trascrizione di legare una sua sequenza bersaglio. Nei modelli basati sui motivi di sequenza, inoltre, di solito si ipotizza che il legame di un fattore di trascrizione a un promotore non sia influenzato dalle sequenze adiacenti e dalla vicinanza di altre proteine. Tuttavia ciò è sbagliato, in quanto interazioni combinatoriali tra vari fattori legati a siti multipli sono essenziali per l’espressione genica. Il risultato è che solo una piccola parte dei siti di legame in vitro lo sono anche in vivo, e così per JASPAR e TRANSFAC risulta impossibile distinguere i siti che hanno un ruolo funzionale da quelli che non lo hanno. Il rapporto tra falsi e veri positivi può essere così alto, fino a 1000 a 1, da rendere futile qualunque ipotesi. Per migliorare le previsioni dei siti di legame, si possono combinare i motivi di sequenza con le impronte filogenetiche, come fa, per es., l’algoritmo ConSite. Esistono anche algoritmi che catturano le interazioni cooperative tra fattori di trascrizione che si legano a gruppi di siti all’interno di un promotore. Questi metodi permettono di ridurre il numero di falsi positivi di un ordine di grandezza, che tuttavia non è ancora sufficiente a migliorare la performance della previsione. A tale scopo è importante la creazione di algoritmi bioinformatici che riflettano più direttamente i meccanismi che regolano la trascrizione dei geni. Per es., si può cercare di identificare regioni contenenti combinazioni significative di fattori di trascrizione biologicamente collegati. Esistono vari metodi, come MSCAN, MCAST (Motif Cluster Alignment and Search Tool) e ModuleScanner, che utilizzano svariate tecniche statistiche e di data mining, per es. le reti bayesiane. Il compito di identificare con maggiore precisione i siti di legame funzionali è facilitato dall’utilizzo delle tecnologie ChIP on chip e ChIP-Seq, che rivelano i siti genomici effettivamente legati a un fattore di trascrizione all’interno di una cellula.

Il problema della futilità colpisce anche i numerosi programmi che cercano di predire i geni bersaglio dei microRNA, come, per es., TargetScan, miRanda, PicTar e altri. Tali programmi cercano regioni all’estremità 3′ non tradotta degli mRNA che abbiano una complementarietà di sequenza con i microRNA. È noto che generalmente la complementarietà di sequenza tra microRNA e mRNA bersaglio non è assoluta. Questo fatto, e la brevità della sequenza dei microRNA, fa sì che esistano numerosissime sequenze potenzialmente in grado di legare un singolo microRNA. I programmi usano regole empiriche per dare un punteggio ai vari allineamenti, e si avvalgono di impronte filogenetiche e della presenza o meno di più siti di legame all’interno dell’mRNA. Tuttavia i risultati non sono soddisfacenti, anche se possono fornire indicazioni utili.

I modelli delle reti

L’obiettivo della genetica è spiegare la relazione esistente tra geni e comportamenti di una cellula o di un organismo. Questa si basa su complesse reti regolative costituite dai geni stessi, dai fattori di trascrizione che ne regolano l’espressione e dalle molecole di segnalazione, che trasmettono all’interno della cellula l’informazione degli stimoli esterni. Tali reti hanno una struttura modulare. Ciò significa che la rete è formata da un insieme di sottocircuiti di varie forme, ciascuno dei quali esegue una funzione distinta e più semplice di quella della rete nel suo complesso. La struttura modulare facilita la modellizzazione perché consente di considerare separatamente singoli moduli, i quali, anche se piuttosto complessi, sono molto più semplici della rete globale. Gli eventi che hanno luogo in queste intricate reti possono essere immaginati come funzioni logiche elementari, la cui esecuzione spinge la cellula da uno stato all’altro. Il modellamento delle reti ha l’obiettivo di riprodurre su un computer l’implementazione di tali funzioni logiche, permettendo, per es., di simulare l’effetto di un farmaco o di altri trattamenti terapeutici. Esistono varie metodologie per l’analisi delle reti, molte delle quali mutuate da altre discipline scientifiche. Alcune prendono in considerazione la struttura, cioè le proprietà topologiche della rete, altre sono volte alle proprietà dinamiche. Queste ultime sono le più interessanti, perché permettono di simulare il funzionamento della rete e di riprodurne il comportamento in risposta a uno stimolo. Le analisi funzionali possono basarsi su modelli probabilistici bayesiani, su reti neurali ricorrenti, su equazioni che seguano la logica booleana, o su sistemi di equazioni differenziali. Le reti di maggiore interesse sono al momento quelle di segnalazione intracellulare, che mediano la risposta a una varietà di stimoli, e le reti di regolazione dei geni.

L’abbondanza di dati di espressione genica ora disponibili rende possibile decodificare complesse reti geniche attraverso tecniche di ingegneria inversa, o reverse engineering, con le quali si cerca di identificare le interazioni tra i geni, e quindi di scoprire il funzionamento della rete, attraverso l’analisi di dati sperimentali relativi ai suoi componenti, tipicamente i dati di espressione degli mRNA. Gli algoritmi di ingegneria inversa sono in grado di inferire correttamente le interazioni regolative tra geni, a condizione che vengano eseguiti gli esperimenti di perturbazione della rete richiesti. Questi algoritmi sono superiori agli algoritmi di clustering. Lo studio delle reti di interazione proteiche è facilitato da tecnologie ad alta resa quali il doppio ibrido, la spettrometria di massa e i chip di proteine analoghi ai microarrays di acidi nucleici.

Modelli probabilistici

Questi modelli descrivono le relazioni probabilistiche degli oggetti della rete, e non la causalità. L’ipotesi è che l’associazione tra due geni sia anche indice di una relazione biologica. I più usati in bioinformatica sono le reti bayesiane, nelle quali le relazioni tra le variabili Xi (i=1,…, n) sono descritte da una distribuzione di probabilità congiunta P(X1, …, Xn) e sono rappresentate in un grafo i cui nodi sono le variabili. I grafi delle reti bayesiane sono direzionali: i nodi sono connessi da freccette orientate che indicano chi influenza chi. Nel caso delle reti geniche, i nodi sono i geni, o meglio la loro espressione, e le loro interconnessioni sono un indice della probabilità di essere coinvolti nello stesso processo biologico. Trattandosi di reti probabilistiche, un gene che sia subito a monte di un altro nella rete non è necessariamente la causa diretta del comportamento di quest’ultimo. Le reti bayesiane sono anche acicliche; ciò significa che non esiste alcun percorso che parta da un vertice e lì ritorni: in pratica scorrono in una sola direzione e non ci sono feedback; ciò è un loro limite, in quanto i feedback sono molto importanti nelle reti biologiche. Un software di inferenza di reti basato su criteri bayesiani è Genomica, volto a identificare moduli regolativi dai dati di espressione genica. La procedura identifica i moduli di geni coregolati, i loro regolatori e le condizioni nelle quali avviene la regolazione, generando ipotesi da testare sperimentalmente, quali ‘il regolatore X regola il modulo Y sotto le condizioni W’. Molto usati sono anche le reti probabilistiche booleane e i modelli di teoria dell’informazione. In quest’ultimo caso, le relazioni probabilistiche tra geni vengono valutate tramite i valori di entropia e informazione mutua. L’entropia è una misura del contenuto di informazione, ed è espressa come numero di bit necessari per immagazzinarla. L’informazione mutua misura l’interdipendenza tra due variabili, nel nostro caso l’espressione di due geni, ed è espressa in bit. Per costruire una rete genica, si parte da profili di espressione di mRNA in varie condizioni. Vengono calcolate l’entropia del profilo d’espressione dei geni, per ciascun gene, e l’informazione mutua tra i profili d’espressione di ciascuna coppia di geni. Un’entropia più alta per un gene significa che le quantità di mRNA da esso prodotte sono distribuite più a caso. Un valore di informazione mutua pari a zero indica che non c’è nessuna associazione tra due geni. Tanto maggiore è l’informazione mutua, invece, tanto minore è la probabilità che la loro associazione sia casuale, e tanto maggiore è la probabilità che i due geni abbiano anche una relazione biologica. ARACNE (Algorithm of the Reconstruction of accurate Cellular NEtworks), sviluppato presso la Columbia university di New York, è un esempio di questo tipo di approccio.

Modelli deterministici

Mentre i metodi probabilistici si basano su stime delle probabilità condizionali, quelli deterministici utilizzano un sistema di equazioni differenziali ordinarie che rappresentano interazioni causali e non semplici dipendenze statistiche. Volendo modellare una rete di N oggetti biologici (mRNA, proteine, metaboliti ecc.), il primo passo è la scelta della forma dell’equazione differenziale fi per ciascun oggetto i della rete. Ogni equazione descrive i cambiamenti nella concentrazione di un oggetto in funzione degli altri, e in risposta a una perturbazione esterna come il trattamento con un farmaco o un composto chimico. Cioè

dxi/dt=fi (x1,..., xN, u, θi)

dove i=1,..., N sono gli oggetti, θi è un insieme di parametri che descrivono le loro interazioni, xi(t) è la quantità (concentrazione) dell’oggetto i misurata al tempo t, dxi/dt è il suo tasso di variazione, e u è una perturbazione esterna al sistema. La forma più semplice delle equazioni fi è una combinazione lineare. Dai dati sulle quantità degli oggetti in varie condizioni, per es. da profili d’espressione genica, si stimano quindi i parametri sconosciuti θi per ciascuna equazione fi, usando vincoli biologici e tecniche di ottimizzazione. Una volta noti i parametri θi per tutte le i, è possibile predire il comportamento della rete in condizioni diverse.

Un ingrediente importante per il modellamento di reti è la disponibilità di un linguaggio comune, leggibile da computer, per rappresentare i modelli e permetterne lo scambio e la valutazione nella comunità scientifica. Il formato comunemente usato a questo scopo è l’SBML (Systems Biology Markup Language). Parimenti importante è lo sviluppo di standard di qualità per la descrizione di modelli nelle pubblicazioni, per es. MIRIAM (Minimal Information Re­quired In the Annotation of Models).

Sono stati sviluppati svariati software di supporto alla costruzione di modelli di reti biologiche. Uno di questi è CNA (CellNetAnalyzer) di MATLAB, che contiene metodi per identificare gli stati funzionali della rete, fare previsioni qualitative sugli effetti di vari stimoli, identificare strategie d’intervento per influenzarne il comportamento. GeneNet è un pacchetto di R contenente vari metodi per la costruzione di reti. COPASI (COmplex PAthway SImulator) è un software che consente, una volta rappresentata una rete in SBML, di simularla in maniera sia probabilistica sia deterministica.

Banche dati di reti e modelli

Oltre che nuove teorie e algoritmi, l’analisi della struttura e del comportamento delle reti genetiche richiede banche dati atte a immagazzinare e a visualizzare l’informazione sulle interazioni.

COXPRESdb (CO-eXPRESsed gene database) fornisce relazioni di geni coespressi in mammiferi, ottenute da profili d’espressione misurati tramite microarrays. Permette di costruire reti di geni coespressi in uno stesso tessuto, geni con la stessa annotazione GO e geni espressi in maniera simile in uomo e topo. Le reti sono disegnate utilizzando come criterio di vicinanza i coefficienti di correlazione e sono visualizzate in maniera interattiva mediante Google Maps API, lo stesso software che consente di mostrare su Internet le cartine stradali. I dati di interazione tra proteine sono raccolti in varie banche dati, tra le quali IntAct (molecular InterAction database), che ne contiene oltre 208.000. GeneNetwork raccoglie interazioni geniche note nell’uomo, ottenute sia da altre banche dati (quali HPRD, Human Protein Reference Database, BIND, Biomolecular Interaction Network Database, e le citate Reactome, KEGG, GO) sia da nuovi dati sperimentali. Inoltre, genera previsioni su possibili nuove interazioni. GeneNetWorks raccoglie interazioni e fornisce varie risorse per l’analisi di reti geniche. Esistono anche banche dati, accuratamente annotate, dei modelli pubblicati su riviste scientifiche. Ne sono esempi JWS Online (Java Web Simulation), dal 2000, BioModels e DOQCS (Database Of Quantitative Cellular Signaling). Oltre ad avere grande interesse scientifico, i pathways di segnalazione cellulare sono considerati un possibile obiettivo terapeutico per molte patologie. La loro architettura viene ricavata attraverso un paziente studio della letteratura scientifica. Di particolare interesse è il citato progetto Reactome. Si stanno sviluppando vari modelli computazionali per le vie di segnalazione, che utilizzano sia le informazioni sull’architettura e le relazioni funzionali tra i suoi componenti, ricavate dalla letteratura, sia esperimenti di perturbazione della rete.

Bibliografia

M.B. Eisen, P.T. Spellman, P.O. Brown, D. Botstein, Cluster analysis and display of genome-wide expression patterns, «PNAS. Proceedings of the National academy of sciences of the USA», 1998, 95, 25, pp. 14.863-68.

V.R. Iyer, M.B. Eisen, D.T. Ross et al., The transcriptional program in the response of human fibroblasts to serum, «Science», 1999, 283, 5398, pp. 83-87.

A.-L. Barabási, Z.N. Oltvai, Network biology. Understanding the cell’s functional organization, «Nature reviews. Genetics», 2004, 5, 2, pp. 101-13.

W.W. Wasserman, A. Sandelin, Applied bioinformatics for the identification of regulatory elements, «Nature reviews. Genetics», 2004, 5, 4, pp. 276-87.

S. Hoops, S. Sahle, R. Gauges et al., COPASI. A COmplex PAthway SImulator, «Bioinformatics», 2006, 22, 24, pp. 3067-74.

J. Wang, S. Rao, J. Chu et al., A protein interaction network for pluripotency of embryonic stem cells, «Nature», 2006, 444, 7117, pp. 364-68.

M.L. Whitfield, L.K. George, G.D. Grant, C.M. Perou, Common markers of proliferation, «Nature reviews. Cancer», 2006, 6, 2, pp. 99-106.

S.C. Materna, E.H. Davidson, Logic of gene regulatory networks, «Current opinion in biotechnology», 2007, 18, 4, pp. 351-54.

N.D. Price, I. Shmulevich, Biochemical and statistical network models for systems biology, «Current opinion in biotechnology», 2007, 18, 4, pp. 365-70.

The ENCODE project consortium, Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project, «Nature», 2007, 447, 7146, pp. 799-816.

«Nucleic acids research», 2010, 38, database issue.

Si veda inoltre:

M. Bansal, V. Belcastro, A. Ambesi-Impiombato, D. di Bernardo, How to infer gene networks from expression profiles, «Molecular systems biology», 2007, 3, art. n. 78, http://www. nature.com/msb/journal/v3/n1/full/msb4100120.html, 31 marzo 2010.