Gli scienziati del MIT costruiscono un sistema in grado di generare modelli di intelligenza artificiale per la ricerca biologica
Immagine precedente Immagine successiva
È possibile costruire modelli di machine learning senza competenze di machine learning?
Jim Collins, professore di scienze e ingegneria medica presso il Dipartimento di ingegneria biologica del MIT e direttore della facoltà di scienze della vita presso la Clinica Abdul Latif Jameel per l'apprendimento automatico in sanità (Jameel Clinic), insieme ad alcuni colleghi hanno deciso di affrontare questo problema quando si affronta un enigma simile. Un documento ad accesso libero sulla soluzione proposta, chiamato BioAutoMATED, è stato pubblicato il 21 giugno su Cell Systems.
Il reclutamento di ricercatori nel campo dell’apprendimento automatico può essere un processo dispendioso in termini di tempo e di denaro per i laboratori scientifici e di ingegneria. Anche con un esperto di machine learning, selezionare il modello appropriato, formattare il set di dati per il modello e quindi perfezionarlo può cambiare radicalmente le prestazioni del modello e richiede molto lavoro.
"Nel tuo progetto di machine learning, quanto tempo dedicherai in genere alla preparazione e alla trasformazione dei dati?" chiede un corso Google del 2022 sui fondamenti del machine learning (ML). Le due scelte offerte sono “Meno della metà del tempo del progetto” o “Più della metà del tempo del progetto”. Se indovinassi quest'ultimo, avresti ragione; Google afferma che la formattazione dei dati richiede oltre l'80% del tempo del progetto, senza contare il tempo necessario per inquadrare il problema in termini di apprendimento automatico.
"Ci vorranno molte settimane di impegno per individuare il modello appropriato per il nostro set di dati, e questo è un passo davvero proibitivo per molte persone che vogliono utilizzare l'apprendimento automatico o la biologia", afferma Jacqueline Valeri, una studentessa di dottorato al quinto anno di ingegneria biologica nel laboratorio di Collins, il primo coautore dell'articolo.
BioAutoMATED è un sistema automatizzato di apprendimento automatico in grado di selezionare e costruire un modello appropriato per un determinato set di dati e persino di occuparsi del laborioso compito di preelaborazione dei dati, riducendo un processo lungo mesi a poche ore. I sistemi di apprendimento automatico automatico (AutoML) sono ancora in una fase di sviluppo relativamente nascente, con l'uso attuale concentrato principalmente sul riconoscimento di immagini e testo, ma in gran parte inutilizzati in sottocampi della biologia, sottolinea il primo coautore e postdoc della Jameel Clinic Luis Soenksen PhD '20.
"Il linguaggio fondamentale della biologia si basa su sequenze", spiega Soenksen, che ha conseguito il dottorato presso il Dipartimento di ingegneria meccanica del MIT. “Sequenze biologiche come DNA, RNA, proteine e glicani hanno la straordinaria proprietà informativa di essere intrinsecamente standardizzate, come un alfabeto. Molti strumenti AutoML sono sviluppati per il testo, quindi aveva senso estenderlo alle sequenze [biologiche]."
Inoltre, la maggior parte degli strumenti AutoML può esplorare e creare solo tipi ridotti di modelli. "Ma non è possibile sapere fin dall'inizio di un progetto quale modello sarà il migliore per il proprio set di dati", afferma Valeri. "Incorporando più strumenti sotto un unico strumento ombrello, consentiamo davvero uno spazio di ricerca molto più ampio di quello che qualsiasi singolo strumento AutoML potrebbe ottenere da solo."
Il repertorio di modelli ML supervisionati di BioAutoMATED comprende tre tipi: modelli di classificazione binaria (che dividono i dati in due classi), modelli di classificazione multi-classe (che dividono i dati in più classi) e modelli di regressione (che adattano valori numerici continui o misurano la forza delle relazioni chiave tra variabili). BioAutoMATED è anche in grado di aiutare a determinare quanti dati sono necessari per addestrare adeguatamente il modello scelto.
"Il nostro strumento esplora modelli che sono più adatti a set di dati biologici più piccoli e sparsi, nonché a reti neurali più complesse", afferma Valeri. Questo è un vantaggio per i gruppi di ricerca con nuovi dati che possono o meno essere adatti a un problema di apprendimento automatico. .
"Condurre esperimenti innovativi e di successo all'intersezione tra biologia e apprendimento automatico può costare molto denaro", spiega Soenksen. "Attualmente, i laboratori incentrati sulla biologia devono investire in infrastrutture digitali significative e in risorse umane addestrate all'intelligenza artificiale prima ancora di poterlo fare. vedere se le loro idee sono pronte a realizzarsi. Vogliamo abbassare queste barriere per gli esperti del settore in biologia”. Con BioAutoMATED, i ricercatori hanno la libertà di eseguire esperimenti iniziali per valutare se vale la pena assumere un esperto di apprendimento automatico per costruire un modello diverso per ulteriori sperimentazioni.