CSIRO

CSIRO utilizza il calcolo senza server per analizzare il genoma umano

Tempo di lettura: 3 minuti

Entro il 2025, si stima che il 50% della popolazione mondiale avrà il sequenziamento del genoma, che secondo il capo del team di bioinformatica trasformazionale del Commonwealth Scientific and Organization (CSIRO), il dott. Denis Bauer, significa che i dati genomici saranno più grandi di quelli detenuti da Twitter, YouTube e astronomia combinati.

La genomica è lo studio delle informazioni codificate nel DNA di un individuo, che consente ai ricercatori di studiare l’impatto dei geni sulla salute e sulle malattie.

Il genoma detiene il progetto per ogni cellula del corpo di un individuo e con così tante informazioni codificate nel genoma, non sorprende che la massima organizzazione di ricerca australiana stia investendo pesantemente nell’esplorazione delle sue possibilità.

Parlando al vertice del settore pubblico dell’AWS a Canberra mercoledì, Bauer ha spiegato in che modo il CSIRO sta utilizzando l’infrastruttura dei servizi Web di Amazon per creare un’applicazione genomica che solo un paio d’anni fa sarebbe sembrata impossibile.

Ha detto che la genomica produce incredibilmente 20 exabyte di dati all’anno, osservando anche come grandi quantità di dati causino tre problemi principali.

“Un problema tecnico è che i grandi volumi di dati non sono banali da mettere in attesa, in particolare quando parliamo di 40 gigabyte per genoma, per individuo”, ha spiegato.

“Sperimentiamo anche carichi di lavoro sfruttabili in cui i clinici potrebbero accedere a questa risorsa contemporaneamente a 10.000 altri clinici, ma al minuto successivo potrebbe ridursi a nulla, quindi non vogliamo pagare per un carico di lavoro che può produrre così tanti dati e poi la prossima volta non c’è più niente.

“Il terzo problema è il consolidamento dei dati”.

Con le normative sulla privacy che differiscono tra le giurisdizioni, Bauer ha affermato che è improbabile che ci sarà un consolidamento dei dati genomici del mondo in un’unica entità. Ha detto quindi che occuparsi di sistemi distribuiti dovrà essere qualcosa a cui le persone coinvolte si abitueranno.

Il team di bioinformatica trasformazionale guidato da Bauer ha le risorse per sviluppare nuove soluzioni di bioinformatica per la ricerca e l’industria utilizzando le più recenti infrastrutture cloud e BigData.

Si concentra in particolare sull’analisi su scala demografica della genomica, della trascrittomica e della metilomica, nonché sulle applicazioni di ingegneria del genoma.

Lavorando per il programma di ricerca eHealth all’interno di CSIRO, che è la più grande agenzia di salute digitale in Australia, Bauer ha affermato che i team si concentrano sul miglioramento dell’assistenza sanitaria attraverso l’uso di tecnologie e servizi digitali.

Questa settimana il CSIRO ha pubblicato il rapporto Future of Health [PDF], che ha delineato la visione quindicennale dell’assistenza sanitaria in Australia.

Come spiega il titolo del rapporto, l’idea principale del CSIRO è spostare l’attenzione dell’Australia dal trattamento delle malattie alla gestione della salute e del benessere .

“Uno dei maggiori messaggi di questo è stato che dobbiamo smettere di essere reattivi, curare le malattie, di essere preventivi e di contrarre malattie prima che diventino effettivamente sintomatici e uno dei temi chiave in questo campo era la salute digitale”, ha aggiunto Bauer.

Un altro tema del rapporto era la medicina di precisione, e per realizzare questa visione Bauer ha affermato che CSIRO ha sviluppato VariantSpark, che è una libreria di apprendimento automatico Hadoop / Spark per l’analisi dei dati genomici.

“È basato sul core Apache e ciò che puoi fare è creare un cluster spark di Apache per analizzare i tuoi dati direttamente su AWS”, ha spiegato.

“Portare le informazioni che abbiamo trovato nel genoma nella pratica clinica reale e prendere decisioni su di esso non è banale e per questo abbiamo sviluppato GenPhen-Insight, che è uno strumento che combina i dati medici con i dati genomici per migliorare in tempo reale, diagnosi del trattamento e risultati o raccomandazioni del trattamento.

“Specificamente progettato per adattarsi alle crescenti necessità di dati genomici in futuro.”

VariantSpark utilizza AWS Lambda, un servizio di elaborazione senza server su richiesta e i file genomici del CSIRO sono tutti situati in un datalake su S3.

“Abbiamo iniziato con una sola infrastruttura e poi ottimizzata per ottenere prestazioni migliori e fare le analisi che volevamo fare”, ha detto Bauer. “Credo fermamente che una volta che vai senza server non torni più indietro.

“La velocità dell’innovazione è incredibile: puoi sostenere un prodotto minimo realizzabile in un paio di secondi e con un costo minimo e non devi pensare all’infrastruttura sottostante.”

Fonte: Zdnet