L’intelligenza artificiale ha compiuto un passo decisivo nella ricerca oncologica. Google DeepMind, in collaborazione con l’Università di Yale, ha presentato C2S-Scale 27B (Cell2Sentence-Scale 27 miliardi di parametri), un modello di intelligenza artificiale progettato per comprendere e interpretare il linguaggio delle singole cellule che ha generato autonomamente un’ipotesi completamente nuova sul comportamento cellulare del cancro, successivamente confermata attraverso validazione sperimentale in cellule umane viventi. L’annuncio, definito dal CEO di Google Sundar Pichai un "traguardo entusiasmante per l’intelligenza artificiale nella scienza", segna una svolta epocale: non si tratta più di un sistema che semplicemente analizza dati esistenti, ma di un’intelligenza artificiale capace di formulare ipotesi biologiche originali e potenzialmente rivoluzionarie per lo sviluppo di nuove terapie anticancro.
Costruito sulla famiglia di modelli open-source Gemma di Google, C2S-Scale 27B rappresenta l’evoluzione più avanzata di una nuova generazione di modelli linguistici specializzati nell’analisi biologica. La peculiarità di questo sistema risiede nella capacità di tradurre i complessi profili di espressione genica delle singole cellule in "frasi cellulari" comprensibili, aprendo la strada a un dialogo inedito tra ricercatori e dati biologici attraverso il linguaggio naturale. Con i suoi ventisette miliardi di parametri, addestrato su oltre un miliardo di token derivanti da dati trascrittomici, testi biologici e metadati, il modello dimostra capacità predittive e generative senza precedenti nelle analisi multicellulari complesse.
Uno dei problemi più ostici dell’immunoterapia oncologica riguarda i cosiddetti tumori "freddi", masse neoplastiche che riescono a rimanere invisibili al sistema immunitario dell’organismo. Una strategia fondamentale per trasformarli in tumori "caldi", riconoscibili dalle difese immunitarie, consiste nell’indurre la presentazione di antigeni sulla superficie delle cellule tumorali, un processo che funge da segnale di allerta per il sistema immunitario. La presentazione antigenica dipende da segnali molecolari specifici come l’interferone, una proteina chiave nella segnalazione immunitaria che, quando presente a livelli troppo bassi, non riesce da sola a innescare il riconoscimento delle cellule cancerose.
I ricercatori hanno assegnato a C2S-Scale 27B un compito particolarmente complesso: identificare un farmaco che agisse come "amplificatore condizionale", capace cioè di potenziare selettivamente il segnale immunitario esclusivamente in presenza di bassi livelli di interferone, senza influenzare contesti cellulari privi di tale segnalazione. Questo tipo di ragionamento condizionale, dipendente dal contesto biologico specifico, rappresenta una capacità emergente che si manifesta solo con modelli di grandi dimensioni, mentre i sistemi più piccoli non riescono a cogliere questi effetti contestuali. Per portare a termine l’indagine, i ricercatori hanno progettato uno "screening virtuale a doppio contesto", una tecnica computazionale innovativa che ha simulato gli effetti di oltre quattromila farmaci su campioni tumorali reali di pazienti, valutandone l’azione in due ambienti distinti: uno caratterizzato da segnalazione immunitaria attiva ma debole, e uno completamente neutro.
Il modello ha identificato diversi candidati farmacologici promettenti, alcuni dei quali già noti alla letteratura scientifica, ma una percentuale significativa, compresa tra il dieci e il trenta percento, rappresentava scoperte completamente inedite, prive di qualsiasi collegamento precedentemente documentato con l’immunoterapia oncologica. Tra i risultati più rilevanti emersi dall’analisi figura il silmitasertib (denominato anche CX-4945), un inibitore orale della chinasi CK2 (caseina chinasi 2), una proteina costitutivamente attiva coinvolta in numerose funzioni cellulari, tra cui la modulazione del sistema immunitario. Sebbene la chinasi CK2 fosse già conosciuta per il suo coinvolgimento in molteplici meccanismi cellulari, l’inibizione di questa proteina attraverso il silmitasertib non era mai stata segnalata in letteratura come strategia per migliorare esplicitamente l’espressione delle molecole MHC di classe I o potenziare la presentazione antigenica.
Le molecole MHC di classe I (complesso maggiore di istocompatibilità) sono proteine espresse sulla superficie di quasi tutte le cellule nucleate dell’organismo e svolgono una funzione cruciale nel riconoscimento immunitario, presentando ai linfociti T frammenti peptidici derivanti da proteine cellulari, incluse quelle anomale prodotte da cellule tumorali o infettate da virus. L’ipotesi generata dall’intelligenza artificiale suggeriva che il silmitasertib, combinato con basse dosi di interferone, potesse incrementare significativamente la presentazione di antigeni tumorali sulla superficie cellulare, rendendo le cellule cancerose più riconoscibili al sistema immunitario. Si trattava di una predizione completamente originale, mai formulata prima dai ricercatori umani, che apriva una promettente via terapeutica inedita.
La validazione sperimentale ha confermato le previsioni del modello. Gli scienziati di Google DeepMind e Google Research hanno testato il silmitasertib in combinazione con basse dosi di interferone su cellule umane viventi, dimostrando che la terapia combinata produceva effettivamente un aumento significativo della presentazione antigenica, ma esclusivamente nel contesto immunitario specifico previsto dall’intelligenza artificiale. I risultati ottenuti in laboratorio hanno validato sperimentalmente l’ipotesi biologica generata autonomamente dal sistema, dimostrando come l’intelligenza artificiale possa non solo accelerare il processo di scoperta scientifica, ma anche generare intuizioni biologiche genuinamente nuove che sfuggono all’analisi convenzionale. Questo approccio rivela il potenziale dell’intelligenza artificiale di agire come vero e proprio collaboratore scientifico, capace di formulare ipotesi testabili, validarle sperimentalmente e guidare la ricerca verso percorsi innovativi precedentemente inimmaginabili.
Il silmitasertib è già oggetto di studi clinici come adiuvante alla chemioterapia nel trattamento del colangiocarcinoma (tumore delle vie biliari) e si trova in sperimentazione di fase I e II per il trattamento del medulloblastoma ricorrente associato alla via di segnalazione Sonic Hedgehog, oltre a essere in sviluppo preclinico per altre neoplasie, incluse le malattie ematologiche e linfatiche. Nel gennaio 2017 ha ottenuto lo status di farmaco orfano dalla Food and Drug Administration statunitense per il colangiocarcinoma avanzato. Il meccanismo d’azione del farmaco si basa sull’interazione competitiva con il sito di legame dell’ATP della subunità alfa della chinasi CK2, determinando l’inibizione di diverse vie di segnalazione a valle, inclusa la via PI3K/Akt, fondamentale nella regolazione della proliferazione e sopravvivenza cellulare.
L’architettura di C2S-Scale si basa sul concetto di "scaling laws" applicato alla biologia, dimostrando che le prestazioni dei modelli linguistici biologici migliorano in modo prevedibile all’aumentare delle dimensioni del modello. I modelli C2S-Scale di dimensioni maggiori superano costantemente quelli più piccoli in una vasta gamma di compiti biologici, dalla annotazione dei tipi cellulari alla generazione di cellule e tessuti virtuali. Nell’interpretazione dei dataset, sono stati osservati miglioramenti consistenti nei punteggi di similarità semantica durante lo scaling delle dimensioni del modello nel regime di ottimizzazione efficiente dei parametri, mentre con la messa a punto completa, la percentuale di sovrapposizione genica nella generazione tissutale è migliorata significativamente fino a raggiungere i ventisette miliardi di parametri. Questa tendenza rispecchia quanto osservato nei modelli linguistici di uso generale e sottolinea un’intuizione fondamentale: con maggiori dati e potenza di calcolo, i modelli linguistici biologici continueranno a migliorare, aprendo la porta a strumenti sempre più sofisticati e generalizzabili per la scoperta biologica.
Il modello è stato addestrato su una collezione curata di oltre ottocento dataset pubblici di sequenziamento dell’RNA a singola cellula, comprendenti più di cinquantasette milioni di cellule provenienti da CellxGene e Human Cell Atlas. Questi dati coprono un’ampia gamma di tessuti, tipi cellulari e condizioni sperimentali sia umane che murine, garantendo che il modello apprenda una rappresentazione robusta e generalizzabile degli stati cellulari. L’addestramento è stato condotto utilizzando JAX, sfruttando l’hardware TPU v5 di Google per un training efficiente su larga scala. La valutazione è stata eseguita utilizzando dataset riservati e benchmark standardizzati progettati per testare le capacità del modello sui compiti elencati, seguendo le migliori pratiche consolidate per la suddivisione dei dati al fine di garantire una valutazione robusta e imparziale.
Google ha reso il modello C2S-Scale pubblicamente accessibile su piattaforme come Hugging Face e GitHub, permettendo agli scienziati di tutto il mondo di esplorare le capacità del modello, testare le sue previsioni e costruire su questa fondazione. L’obiettivo dichiarato è democratizzare la ricerca biomedica all’avanguardia, consentendo alla comunità scientifica globale di beneficiare di questo strumento e accelerare la scoperta di nuove terapie. I pesi del modello condivisi su Hugging Face sono rilasciati con licenza CC-BY-4.0, garantendo un accesso aperto e trasparente. La comunità scientifica ha accolto l’annuncio con entusiasmo: un ex ingegnere di Google ha commentato che questo rappresenta "esattamente dove risiede il più grande impatto sociale dell’intelligenza artificiale", sottolineando come acceleri le scoperte nella scienza fondamentale come l’oncologia.
Le applicazioni potenziali di C2S-Scale vanno ben oltre l’identificazione di nuove combinazioni farmacologiche. Il modello permette di interagire con i dati biologici attraverso domande in linguaggio naturale, come "Come risponderà questa cellula T alla terapia anti-PD-1?" o "Questa cellula è cancerosa?", ricevendo risposte informate biologicamente. Questa capacità di analisi conversazionale consente ai ricercatori di interagire con i loro dati in modi precedentemente impossibili, accelerando l’interpretazione di nuovi dataset e aumentando la fiducia nelle conclusioni senza necessità di scrivere codice complesso. Il sistema può generare automaticamente riassunti biologici dei dati di sequenziamento dell’RNA a singola cellula a diversi livelli di complessità, dalla descrizione dei tipi cellulari di singole cellule fino alla generazione di sintesi di interi tessuti o esperimenti.
C2S-Scale si colloca all’interno di un movimento più ampio che vede l’intelligenza artificiale muoversi verso la creazione di "cellule virtuali", avatar in silico che consentono ai ricercatori di eseguire migliaia di esperimenti ipotetici, accelerare la scoperta di target terapeutici e simulare risposte specifiche per ogni paziente molto prima di un saggio in laboratorio umido. Questo approccio rappresenta un cambio di paradigma rispetto alla semplice lettura o modifica di sequenze note, permettendo la creazione ex novo di codice genetico con un’intelligenza artificiale evoluta. Attraverso l’ottimizzazione mirata supportata da moderne tecniche di apprendimento per rinforzo, C2S-Scale eccelle in compiti come la previsione della risposta alle perturbazioni, l’interpretazione del linguaggio naturale e il ragionamento biologico complesso.
Sundar Pichai ha sottolineato che questo potenziale promettente è ancora soggetto a ulteriori test preclinici e clinici prima che possa tradursi in terapie concrete per i pazienti. La strada dalla scoperta di laboratorio all’applicazione clinica richiede anni di sperimentazione rigorosa per verificare sicurezza ed efficacia. Tuttavia, questo traguardo dimostra il potenziale trasformativo dell’intelligenza artificiale come vero partner nella scienza, capace di accelerare la scoperta, stimolare l’innovazione e guidare la ricerca in modi che erano precedentemente inimmaginabili. La combinazione di grandi modelli linguistici con dati biologici su scala senza precedenti non solo supera sia i modelli specializzati per singole cellule sia i modelli linguistici di uso generale, ma stabilisce anche una piattaforma potente per l’analisi di nuova generazione delle singole cellule, aprendo la strada allo sviluppo di "cellule virtuali" che potrebbero rivoluzionare la medicina personalizzata e la ricerca oncologica.
La famiglia di modelli Gemma, su cui si basa C2S-Scale, rappresenta l’impegno di Google nel rendere l’intelligenza artificiale avanzata accessibile attraverso l’open source. Gemma è una famiglia di modelli aperti leggeri e all’avanguardia, costruiti con la stessa ricerca e tecnologia utilizzata per creare i modelli Gemini. Il nome Gemma deriva dal latino e significa "pietra preziosa", riflettendo il valore che questi modelli portano alla comunità di sviluppatori e ricercatori. I modelli sono disponibili in diverse dimensioni parametriche, con varianti preaddestrate e ottimizzate per le istruzioni, accompagnati da un Responsible Generative AI Toolkit che fornisce indicazioni e strumenti essenziali per creare applicazioni di intelligenza artificiale più sicure. L’ottimizzazione su più piattaforme hardware, incluse le GPU NVIDIA e i TPU Google Cloud, garantisce prestazioni leader del settore, mentre i termini di utilizzo permettono un uso e una distribuzione commerciale responsabile per tutte le organizzazioni, indipendentemente dalle dimensioni.
Il successo di C2S-Scale nell’identificare il silmitasertib come amplificatore condizionale dell’interferone rappresenta solo l’inizio di una nuova era nella ricerca biomedica guidata dall’intelligenza artificiale. La capacità di questi sistemi di generare ipotesi biologiche originali, testarle virtualmente su migliaia di composti e identificare candidati terapeutici inediti potrebbe accelerare drasticamente il processo di scoperta farmacologica, tradizionalmente lungo e costoso. Con l’aumento della disponibilità di dati biologici e della potenza computazionale, i modelli come C2S-Scale diventeranno sempre più sofisticati, aprendo prospettive rivoluzionarie non solo nella lotta contro il cancro, ma potenzialmente in tutti i campi della medicina e della biologia molecolare. La trasformazione dei tumori freddi in tumori caldi, rendendoli finalmente visibili e vulnerabili al sistema immunitario, potrebbe rappresentare una svolta decisiva per milioni di pazienti oncologici in tutto il mondo che attualmente non rispondono alle terapie convenzionali. Per restare sempre aggiornato scarica GRATIS la nostra App!