IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali...

11
IMMUNOINFORMATICA E REVERSE VACCINOLOGY L’immunoinformatica è un ramo della bioinformatica tra i più avanzati e vicini alle biotecnologie, in quanto si occupa tanto della predizione di antigeni ed epitopi quanto dei passaggi in silico che hanno reso possibile la vaccinologia inversa o Reverse Vaccinology. L’immunoinformatica utilizza strategie comuni a varie aree della bioinformatica, tra le quali la creazione e gestione di database, la definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie e/o secrete del patogeno e quelle dell’ospite gioca un ruolo chiave nella patogenesi e nella virulenza, uno dei compiti principali dell’immunoinformatica è quello di identificare in silico il subproteoma di superficie dei patogeni: che rappresenta il subset proteomico ove cercare antigeni ed epitopi rilevanti ai fini dello studio della patogenesi quanto utili per la progettazione di vaccini. Sebbene anche molte proteine citoplasmatiche siano coinvolte nella patogenesi e possano risultare immunogeniche, non ha molto senso utilizzarle come target per vaccini, dal momento che esse sono esposte al sistema immunitario dell'ospite solo se rilasciate da cellule del patogeno che abbiano perso l'integrità di membrana o dei sistemi di trasporto. La risposta immune, invece, deve proteggere da (ovvero essere rivolta contro) patogeni vivi, che espongono quindi solo il subproteoma di superficie. La ricerca immunoinformatica ha consentito di definire un numero di pattern e profili specifici per proteine di superficie di patogeni sia Gram-negativi che Gram-positivi, nonchè motivi conservati che caratterizzano le regione di legame di proteine (adesine) coinvolte nell’adesione alle cellule ospiti: I vaccini rivolti contro adesine si sono rivelati spesso molto efficaci ed è per questo che tra i tools immunoinformatici, quelli capaci di identificre le adesine sono particolarmente utili in programmi di Reverse Vaccinology. Poichè gli epitopi di cellule B o T sono i componenti principali dei vaccini a subunità e politopici, l’accuratezza nella predizione di tali epitopi è uno dei task fondamentali dell’immunoinformatica. La predizione di epitopi T si sta rivelando utile anche nella terapia anti- tumorale , oltre che per la progettazione di vaccini contro agenti infettivi, virus inclusi, nonché per la diagnostica e per lo studio e la prevenzione delle malattie allergiche ed autoimmuni .

Transcript of IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali...

Page 1: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

IMMUNOINFORMATICA E REVERSE VACCINOLOGY

L’immunoinformatica è un ramo della bioinformatica tra i più avanzati e vicini alle biotecnologie, in quanto si occupa tanto della predizione di antigeni ed epitopi quanto dei passaggi in silico che hanno reso possibile la vaccinologia inversa o Reverse Vaccinology. L’immunoinformatica utilizza strategie comuni a varie aree della bioinformatica, tra le quali la creazione e gestione di database, la definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc.

Poichè l’interazione tra le proteine di superficie e/o secrete del patogeno e quelle dell’ospite gioca un ruolo chiave nella patogenesi e nella virulenza, uno dei compiti principali dell’immunoinformatica è quello di identificare in silico il subproteoma di superficie dei patogeni:

che rappresenta il subset proteomico ove cercare antigeni ed epitopi rilevanti ai fini dello studio della patogenesi quanto utili per la progettazione di vaccini. Sebbene anche molte proteine citoplasmatiche siano coinvolte nella patogenesi e possano risultare immunogeniche, non ha molto senso utilizzarle come target per vaccini, dal momento che esse sono esposte al sistema immunitario dell'ospite solo se rilasciate da cellule del patogeno che abbiano perso l'integrità di membrana o dei sistemi di trasporto. La risposta immune, invece, deve proteggere da (ovvero essere rivolta contro) patogeni vivi, che espongono quindi solo il subproteoma di superficie.

La ricerca immunoinformatica ha consentito di definire un numero di pattern e profili specifici per proteine di superficie di patogeni sia Gram-negativi che Gram-positivi, nonchè motivi conservati che caratterizzano le regione di legame di proteine (adesine) coinvolte nell’adesione alle cellule ospiti:

I vaccini rivolti contro adesine si sono rivelati spesso molto efficaci ed è per questo che tra i tools immunoinformatici, quelli capaci di identificre le adesine sono particolarmente utili in programmi di Reverse Vaccinology. Poichè gli epitopi di cellule B o T sono i componenti principali dei vaccini a subunità e politopici, l’accuratezza nella predizione di tali epitopi è uno dei task fondamentali dell’immunoinformatica. La predizione di epitopi T si sta rivelando utile anche nella terapia anti-tumorale, oltre che per la progettazione di vaccini contro agenti infettivi, virus inclusi, nonché per la diagnostica e per lo studio e la prevenzione delle malattie allergiche ed autoimmuni.

Page 2: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Come in altri campi della bioinformatica, i predittori possono basarsi su caratteristiche chimico-fisiche e molecolari e/o su evidenze empiriche, ovvero sul confronto con dati depositati in database ad hoc. Per questo motivo è importante disporre di database di epitopi bene annotati e di sistemi di consultazione. La predizione di epitopi è cruciale per la progettazione di vaccini a subunità.

Esistono vari metodi ed approcci nella predizione; essi possono essere diretti o indiretti (predizione di MHC binders) e basarsi sulla presenza di motif di legame, su matrici o infine su dati strutturali. Alcuni metodi di predizione tengono conto di vari aspetti coinvolti nella determinazione della risposta immune, quali ad esempio il taglio proteolitico dell’antigene o il fatto che l’epitopo sia lineare o conformazionale. Per la predizione di epitopi conformazionali, alcuni metodi utilizzano i dati di struttura 3D, informazioni statistiche e steriche sui residui, dati di accessibilità determinati per set di epitopi conformazionali mediante cristallografia dei complessi antigene-anticorpo. E' facilmente intuibile quanto la predizione di epitopi conformazionali, ovvero dipendenti dal contesto locale 3D, sia più difficile a causa della quantità di dati strutturali molto inferiore ai dati di sequenza associabili agli epitopi lineari.

Può essere molto importante studiare in silico, mediante analisi di omologia, la conservazione degli epitopi. Nella progettazione di vaccini, un epitopo conservato potenzialmente offre protezione contro ceppi multipli di patogeni, cioè può portare alla produzione di un pan-vaccino o vaccino multiprotettivo, che riduce tempi e costi sia dal lato della sperimentazione e produzione, sia dal lato della prevenzione di massa (singola vaccinazione multivalente, invece di vaccinazioni multiple). Nella diagnostica, invece, sono più utili gli epitopi meno conservati e quindi più adatti a saggi basati su un’elevata specificità. Idealmente, ogni volta che si progetta un vaccino, si dovrebbe mirare allo sviluppo di un pan-vaccino multiprotettivo. Tuttavia questo approccio è più correntemente seguito da agenzie e programmi governativi o da gruppi accademici, mentre per motivi di convenienza economica, le grandi aziende del settore spesso preferiscono sviluppare vaccini mono- od oligo-protettivi (per vendere di più).

Poichè le analisi per omologia si rivelano deboli nell’identificazione di sequenze particolarmente divergenti, si possono utilizzare algoritmi di machine learning e lo studio delle caratteristiche di sequenza, quali frequenza di residui e loro combinazioni, frequenza di elementi raggruppati per alfabeti semplificati ecc.

DALLA VACCINOLOGIA TRADIZIONALE ALLA REVERSE VACCINOLOGY.

Nella vaccinologia tradizionale sono utilizzati patogeni morti o attenuati:

Nella vaccinologia moderna, invece, sono utilizzate proteine ricombinanti, epitopi peptidici, talora misti, vaccini a DNA. Spesso si producono vaccini a subunità o associati a carrier:

Page 3: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

La loro selezione, comunque, prevede indagini sperimentali lunghe e laboriose. La vaccinologia moderna è stata rivoluzionata dall’avvento della Reverse Vaccinology (RV), che a sua volta è stata resa possibile dalla bioinformatica. Ciò ha ridotto drasticamente tempi (e costi) per la progettazione dei vaccini (dai 5-15 anni di una volta agli attuali 1-2 anni):

L'approccio della RV è un esempio completo e di successo di computer-aided biotechnology. La disponibilità di un notevole numero di genomi di patogeni e di vari strumenti di analisi ha reso possibile implementare la ricerca di vaccine candidates (VC) su scala genomica come processo in silico.

La RV è ormai l’approccio standard per la progettazione dei vaccini. Differentemente dall’identificazione convenzionale di antigeni protettivi contro componenti di patogeni in coltura, la RV utilizza uno spettro completo di antigeni potenziali. Ciò consente ai vaccinologi di ottenere pool che includono VC altrimenti non identificabili, a causa di una scarsa o assente espressione in vitro o per l’impossibilità di coltivare il patogeno.

La strategia RV è stata definita dal lavoro pionieristico con cui un gruppo di ricercatori (italiani!) ha progettato un vaccino contro il ceppo B di Neisseria meningitidis (MenB). Questo ceppo era l’unico escluso dal vaccino allora in commercio, poichè i suoi polisaccaridi di superficie non erano stati

Page 4: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

inclusi in quanto troppo simili a molecole self e quindi potenzialmente capaci di indurre una risposta troppo debole oppure autoimmunità:

Per questo motivo si sono cercati i vaccine candidates tra i 2158 antigeni proteici di menB mediante uno screening bioinformatico preliminare, basato sull’integrazione di ricerche per omologia, motif scanning e predizione della SCL:

(tratto da Pizza et al. 2000)

Ciò ha portato alla selezione di un subproteoma di 570 putative proteine di superficie. L’insuccesso nell’espressione di 220 geni, dipendente dalla presenza di domini TM multipli nei prodotti proteici, ha fornito spunto per successivi miglioramenti dell’approccio. Dopo la fase di clonaggio ed espressione, le analisi sperimentali hanno portato alla selezione finale di 5 VC.

Page 5: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Questo lavoro, che resta la “pietra miliare” della RV, ha comportato - malgrado la forte preselezione bioinformatica dei VC - un lavoro sperimentale prima su centinaia (clonaggio ed espressione) e poi su decine (purificazione, caratterizzazione) di proteine:

Da allora, altri progetti RV sono stati realizzati da parte di vari gruppi, tutti volti ad aumentare la stringenza nella selezione (e quindi a ridurre l'impegno sperimentale), ma la cura manuale dei passaggi di selezione in silico ha prodotto una certa variabilità rmetodologica e quindi una difficoltà nel valutare comparativamente l’efficacia dei risultati. E’ emersa pertanto la necessità di standardizzare ed automatizzare la RV creando un nuovo ambiente dedicato.

Il primo di essi è NERVE (New Enhanced Reverse Vaccinology Environment), nuovamente frutto del lavoro di un team italiano (e in particolare dall'iniziativa e tenacia di un ex-studente del corso di Biotecnologie Industriali) il cui articolo è liberamente scaricabile sia in full text che in pdf (link sulla pagina BT corner del sito del corso):

Come PSORTb, NERVE adotta un approccio integrativo, affrontando i subproblem essenziali per la ricerca di VC:

e coordina l’esecuzione di software preesistenti (incluso PSORTb stesso!):

Page 6: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Per una scelta precisa, NERVE recupera i dati elaborati da tali software su tutte le proteine del proteoma del patogeno contro il quale si vuole progettare un vaccino e li accumula in un database MySQL, evitando la strategia per fasi di “eliminazione a filtro” che caratterizza vari predittori, bioinformatici e non. Una volta depositate nel database, tutte le informazioni risultano recuperabili (e rielaborabili) in qualsiasi momento ed è anche possibile fornire un “ranking” (posizionamento in graduatoria) dei VC sulla base di una vera integrazione di valori pesati.

In realtà, anche in NERVE esistono delle fasi “filtro”, utili per eliminare dalla rosa dei migliori candidati quiei VC che potrebbero creare problemi nelle fasi sperimentali, ma i dati di tutti i VC, “migliori” e “peggiori”, restano comunque disponibili nel database MySQL, senza perdita d’informazione (un po’ come accade per l’output di BLAST: si visualizza un subset, parte di un set che però è completo).

I moduli di predizione della SCL e della probabilità che un VC sia un’adesina si avvalgono rispettivamente dei software PSORTb e SPAAN e sono utili per individuare un putativo subproteoma di superficie. Come rilevato nel primo lavoro di RV, tuttavia, tale subproteoma contiene un gran numero di proteine multi-transmembrana, che per la loro topologia sono difficili o impossibili da esprimere e purificare, poiché si localizzano nella membrana o comunque formano corpi d’inclusione insolubili. Per questo motivo NERVE utilizza il programma HMMTOP, a sua volta incluso nel modulo PSORTb, per individuare le proteine con più TM ed assegnare alle stesse punteggi negativi.

NERVE valuta anche, avvalendosi di un modulo basato su BLAST, la similarità locale che le proteine del patogeno hanno con proteine umane:

In tali regioni di similarità, sono individuati mediante sliding window scanning i putativi epitopi lineari conservati sulla base della presenza di un numero minimo di residui identici o simili (+) entro una finestra di 9 residui:

Tali epitopi possono rappresentare rischio di autoimmunità e quindi la loro presenza in un VC rende lo stesso meno adeguato di altri VC alla progettazione di un vaccino.

NERVE valuta anche la similarità locale (e quindi la possibile condivisione di epitopi) tra le proteine del patogeno e quelle di altri ceppi, per individuare VC potenzialmente multi-protettivi (ovviamente, in tal caso lo score non è negativo!):

Page 7: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Infine, l’analisi di omologia contro database non-redudant (tutte le specie) consente, per molti VC, di inferire una funzione putativa. I dati di queste sei analisi confluiscono nel database MySQL:

Dal quale, mediante interfaccia html, possono essere estratte per link le informazioni dei vari campi relativi ai vari VC:

In realtà, dopo le sei fasi illustrate, il flusso di lavoro (pipeline) di NERVE prevede una settima fase di "selezione", che integra i dati avvalendosi anche di un sistema a filtri:

Page 8: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Per tale fase è previsto che siano soddisfatti dei requisiti a priori, quali ad es. non avere un numero eccessivo di TM (TOP) ed essere una proteina di superficie (LOC). Allo stesso tempo, i punteggi da attribuire a determinate caratteristiche, quali l'omologia con adesine (PAD) e la condivisione di epitopi putativi con Homo sapiens o con altri ceppi batterici (SHP) sono determinati ed affinati (tuning) su base empirica:

Page 9: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Come in molti altri processi di tuning empirico dei predittori, è necessaria una fase di istruzione, che si realizza attraverso l’ottimizzazione su un training set e la verifica su un test set:

Nel caso di NERVE, sia il training set che il test set contenevano proteomi di differenti patogeni per i quali erano già stati identificati vaccini ed antigeni protettivi. Il tuning dei pesi relativi tra i valori in output dei vari moduli è stato ottimizzato per iterazione sul training set, in modo che il predittore includesse tra i VC individuati il massimo numero di vaccini e antigeni protettivi noti. A tal punto si è utilizzato il test set per validare il tuning raggiunto in predizioni su set proteomici differenti, ovvero accertare che il bilanciamento dei pesi non fosse ottimale solo per i proteomi inclusi nel training set, ma egualmente valido per qualsiasi altro proteoma di tipo e dimensioni comparabili.

Page 10: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Per avere un’idea del miglioramento introdotto da NERVE rispetto ai primi lavori, sono state infine ripetute le fasi in silico che erano state realizzate nel pionieristico lavoro del 2000 per menB, utilizzando NERVE per la prima selezione dei VC. Il risultato è consistito nella riduzione del primo set da circa 600 a soli 130 VC:

Il ranking dei migliori VC ha consentito inoltre di confermare la presenza dei VC selezionati nel lavoro originale. Ci si può rendere conto del notevole vantaggio di aver selezionato molti meno VC per le fasi sperimentali, escludendo inoltre dalle stesse i tentativi - per lo più destinati a fallimento - di espressione di proteine multi-TM. Il tutto, mantenendo completezza di informazione e processi automatizzati “user-friendly” e riproducibili:

IL rilascio di NERVE ha fornito alla comunità degli sviluppatori di vaccini una piattaforma open source per l'automazione ed interpretazione degli steps bioinformatici; tuttavia il suo uso è risultato non sempre alla portata di team sperimentali con scarse competenze informatiche. L'installazione ed uso di NERVE, infatti, richiede una certa conoscenza dell'ambiente Linux, la capacità di procurarsi ed installare i vari moduli, il database ecc...

Pertanto, gli sviluppatori che si sono ispirati a NERVE hanno implementato l'ulteriore passo verso l'utenza sperimentale: l'interfaccia web e la possibilità di uso da postazione remota (senza necessità d'installazione ed uso stand alone).

Il portale Vaccine Investigation & Online Information Network (VIOLIN) segue l'approccio di NERVE, che integra con l'annotazione di vaccini già identificati e, soprattutto, è fruibile attraverso interfaccia web: http://www.violinet.org. Quando è stato rilasciato nel 2007, il numero di vaccini annotati era poco oltre i 200, ma ha superato i 3000 nel 2014.

Page 11: IMMUNOINFORMATICA E REVERSE VACCINOLOGY … · definizione e l’uso di marcatori funzionali specifici e lo sviluppo di tools ad hoc. Poichè l’interazione tra le proteine di superficie

Un po' come il portale psort.org, che ospita la "famiglia" di programmi per la predizione di SCL, violinet.org funge da piattaforma per l'analisi e la predizione dei vaccini ospitando una decina di software e database, tra i quali ad esempio VirmugenDB, un database di geni per i fattori di virulenza da mutare opportunamente per ottenere vaccini attenuati e per questo definiti virmugenes.

Tuttavia il tool più importante nella piattaforma VIOLIN è il software Vaxign che, come NERVE, è un predittore di VC ed utilizza anche predizioni di NERVE, condividendo con questo (e con PSORTb) l'approccio modulare. In particolare, Vaxign integra moduli già visti in NERVE (predizione SCL, TM, adesine e omologia con proteine umane) con la predizione di legame a MHC di classe I e II.

Come per NERVE, i link agli articoli che presentano VIOLIN e VAxign sono riportati nella pagina BT corner del sito del corso.

© Sandro Vivona e Francesco Filippini, 2007-2017