Il nuovo test di gruppo identifica tutti i soggetti positivi
Un nuovo studio peer-reviewed pubblicato su Science Advances conferma il successo di un nuovo test di pooling COVID-19 che identifica tutti i soggetti positivi, inclusi i portatori asintomatici, in un unico ciclo di test.
P-BEST, un metodo algoritmico per test SARS-CoV-2 basato sul pooling , è stato sviluppato da un gruppo di ricercatori dell’Università Ben-Gurion del Negev (BGU), l’Istituto nazionale di biotecnologia del Negev (NIBN), The Open University of Israel (OUI) e Soroka University Medical Center.
“Circa il 10-30% dei pazienti con infezione da COVID-19 è asintomatico e una significativa diffusione virale può verificarsi giorni prima della comparsa dei sintomi”, afferma il Prof. Angel Porgador, vicepresidente della ricerca e sviluppo della BGU e membro del NIBN.
“Fino a quando non ci sarà un vaccino, ci sarà un’urgente necessità di aumentare le capacità dei test diagnostici per consentire lo screening delle popolazioni asintomatiche e pre-sintomatiche.
Questo nuovo test diagnostico in un’unica fase aiuterà a prevenire la diffusione della malattia identificando questi pazienti prima e a un costo inferiore utilizzando un numero significativamente inferiore di test “.
Nello studio attuale, 384 campioni sono stati suddivisi in soli 48 pool fornendo un aumento di otto volte nell’efficienza dei test e una riduzione simile dei costi di test per i reagenti. Ogni pool comprende un set unico di 48 campioni, in cui ogni campione appare esattamente in sei pool utilizzando uno specifico disegno combinatorio.
Questi 48 pool sono stati poi testati presso il laboratorio di virologia di Soroka utilizzando un protocollo diagnostico basato su PCR COVID-19 che includeva una fase di estrazione dell’RNA.
Dopo aver testato singolarmente ciascuno dei 48 pool, i ricercatori hanno identificato con successo fino a cinque portatori positivi all’interno dei 384 campioni, senza dover testare i soggetti in quel pool.
“P-BEST può essere configurato sulla base della tariffa portante”, afferma il dott. Noam Shental, capo della divisione informatica di OUI. “Più basso è il tasso di trasporto, maggiore è l’efficienza.
Il nostro metodo di pooling è stato testato utilizzando un sistema robotico avanzato per la gestione dei liquidi in grado di eseguire l’attività in un’ora e può essere eseguito in un tipico laboratorio diagnostico clinico in qualsiasi parte del mondo “.
Fig. 3
Confronto del rapporto di falsi positivi risultati positivi nelle simulazioni su dati sintetici per 200⋅931 campioni con differenti incidenze P alla dimensione del pool n = 31 e la strategia di campionamento con molteplicità k∈ {4,5,6,7}, ei limiti teorici del Teorema 1. Il codice per la simulazione può essere trovato in (Täufer, 2020).
Nella ricerca teorica sulle strategie di test si distingue tra test adattivi, ad esempio quando tutti i campioni in un pool positivo vengono sottoposti a un secondo ciclo di test, e strategie non adattive, in cui tutti i test possono essere eseguiti simultaneamente (Du e Hwang, dicembre 1999).
Testare ogni campione individualmente può essere considerato come una banale strategia non adattativa, ma esistono strategie non adattive che combinano il vantaggio del raggruppamento con i vantaggi del test non adattivo.
In questa nota, proponiamo una strategia di pooling non adattiva per lo screening rapido e su larga scala per SARS-CoV-2 o altri scenari in cui il tempo di rilevamento è fondamentale.
Ciò consente una significativa semplificazione del processo di test e una riduzione dei tempi di rilevamento. In primo luogo perché è richiesto un solo ciclo di PCR e in secondo luogo perché elimina le azioni nel flusso di lavoro del laboratorio che richiedono input dai risultati determinati in laboratorio, ovvero l’infrastruttura di test può essere organizzata in modo completamente lineare, cfr. Fig. 2 per un’illustrazione.
La strategia sovrastimerà sistematicamente il numero di positivi, ma possiamo fornire limiti di errore sul numero di falsi positivi che scalano favorevolmente con numeri grandi e saranno piccoli in scenari realistici.
Definizione della strategia di test non adattivo: multipool
La nostra strategia di test è la seguente: il campione di ogni individuo viene suddiviso in k campioni e distribuito su k diversi pool di dimensione n in modo tale che due individui non condividano più di un pool.
Un individuo è considerato positivo al test se tutti i pool in cui è stato fornito il suo campione sono risultati positivi o – nel nostro caso in modo equivalente – un elemento è considerato negativo se appare in almeno un pool negativo.
Questo algoritmo di decodifica è noto anche come COMP (Combinatorial Orthogonal Matching Pursuit), un algoritmo facilmente implementabile nella pratica con tempi di esecuzione e archiviazione ridotti (Johnson et al., Febbraio 2019).
Rendiamo la nostra definizione più formale:
Definizione 1
Multipools – Sia data una popolazione (X1,…, XN) di dimensione N , una dimensione di pool ne una molteplicità k , e supponiamo che Nk sia un multiplo di n . Chiamiamo una raccolta di sottoinsiemi / pool di {X1,…, XN} un (N, n, k) -multipool , o brevemente multipool , se tutte le seguenti tre condizioni sono valide :
- (M1) Ogni pool è composto esattamente da n elementi.
- (M2) Ogni campione Xi è contenuto esattamente in k pool.
- (M3) Per due diversi campioni Xi, Xj esiste al massimo un pool che contiene sia Xi che Xj.
Nel contesto dei test non adattivi, i progetti come nella definizione 1 sono chiamati matrici (k − 1) -disgiunte ed è noto che tali matrici identificano correttamente fino a k campioni infetti ( Mazumdar, 2012 ). Tuttavia, saremo interessati a scenari in cui il numero di campioni infetti può superare la molteplicità k . Se N = n2 ek = 2 la costruzione di un (N, n, 2) -multipool è abbastanza semplice, vedi Fig.1: disponi gli N campioni in una griglia rettangolare e poi raggruppali lungo ogni riga e colonna, cfr. ( Sint et al., Agosto 2016, Fargion, YYYY, Zuzarte et al., Aprile 2014). Tuttavia, come vedremo di seguito, k = 2 in molti scenari realistici è insufficiente per la precisione desiderata.
Fig. 1
Raggruppamento lungo righe e colonne per disporre N = 64 campioni in 16 pool di dimensione 8 per formare un (64,8,2) -multipool. Diversi motivi e colori di sfondo rappresentano pool diversi.
Alcuni contributi recenti (Fargion, YYYY, Mutesa et al., 2020) propongono di disporre i campioni in un ipercubo (3 o dimensioni superiori) e di raggrupparli lungo tutti gli iperpiani.
Questo fa sì che ogni singolo campione appaia in tre o più pool, ma non è un multipool nel senso della definizione 1 di cui sopra, poiché nella dimensione tre e superiore, due iperpiani qualsiasi si intersecheranno in più di un punto, in violazione della Proprietà (M3 ).
Ciò crea correlazioni non necessarie tra i diversi pool e compromette le prestazioni.
Se k = 3, i sistemi come nella definizione 1 sono anche chiamati tripli di Steiner e sono stati recentemente utilizzati in test di gruppo non adattativi per SARS-CoV-2 (Ghosh et al., 2020).
Un modo flessibile per costruire multipool di varie molteplicità k è dato dallo Shifted Transversal Design (Thierry-Mieg, 2006, Erlich et al., 0353) che spieghiamo nella Sezione 4.
Controllo del numero di falsi positivi
Assumiamo sempre che l’incidenza ρ della malattia sia piccola rispetto alla dimensione inversa del pool 1 / n. Questo è un requisito ragionevole, anche nelle classiche strategie di pooling (una porzione ρn di campioni dovrà essere sottoposta a un secondo test, quindi un ρn grande attenuerebbe il beneficio del pooling).
Assumendo una perfetta performance della PCR, anche in pooling (vedere la Sezione 6 su come affrontare l’incertezza qui), il multipool identificherà tutti gli individui infetti, poiché tutti i loro pool saranno positivi.
Tuttavia, un campione potrebbe essere dichiarato erroneamente positivo se tutti i pool in cui è contenuto contengono un campione infetto.
La parte prevista di falsi positivi in una strategia multipool è
Qui, la terza identità utilizza in modo cruciale la proprietà (M3) che garantisce l’indipendenza tra i compagni di piscina nei diversi pool di un campione. Per la regola di Bayes, la probabilità di essere effettivamente negativo quando risultato positivo dal multipool (cioè la porzione di soggetti falsamente dichiarati positivi tra tutti i soggetti dichiarati positivi) è
Calcoliamo per quale k la probabilità che un risultato positivo del test sia un falso positivo non supera ∊ fp> 0:
Ciò fornisce un limite inferiore alla molteplicità k necessaria in termini di dimensione del campione n , la conoscenza sull’incidenza ρ e la parte accettabile ∊ fp di risultati falsi positivi tra tutti i positivi. Assumendo ∊ fp <1 e ρ⩽1 / 2 (che sono entrambe ipotesi ragionevoli, ricorda che ρn è piccolo), il limite inferiore in (10) è monotono crescente in ρ. Quindi, se l’incidenza esatta è sconosciuta ma abbiamo un limite superiore su di essa, possiamo lavorare con il caso più grande / peggiore ρ. Riassumiamo questi risultati nel seguente Teorema 1
Sia l’incidenza al massimo ρ⩽12 e sia 0 < ∊ fp <1. Se
poi in qualsiasi strategia multipooling con dimensioni piscina n e molteplicità k , la probabilità di un test positivo essere un falso positivo non supera ε fp.
Il numero di test richiesti in una strategia multipool è Nk / n, un miglioramento rispetto ai test individuali di un fattore n / k. Un’osservazione chiave è che il limite inferiore su k in Disuguaglianza (11) scala favorevolmente con grandi molteplicità n .
Ricordiamo infatti che in una strategia di pooling adattivo si vogliono da un lato pool di dimensioni n grandi , ma dall’altro nρ dovrebbe essere piccolo. È quindi ragionevole avere n proporzionale all’inverso di ρ, cioè nρ≈C.
Usando 1 − ρ≈1 e 1− (1 − ρ) n − 1≈ (n − 1) ρ≈nρ, il limite inferiore in (11) si comporta approssimativamente come
cioè k cresce solo logaritmicamente con la dimensione del pool n. Un’analisi analoga mostra che k cresce anche logaritmicamente con l’inverso di ∊fp quando la probabilità di errore ∊fp viene inviata a zero.
Generazione di multipool
La questione per quali combinazioni (N, n, k) esiste un multipool sembra essere in generale un problema combinatorio non banale. Ci concentriamo qui sul caso in cui N = n2 e sulle costruzioni basate sullo Shifted Transversal Design ( Thierry-Mieg, 2006 ).
È utile immaginare ogni N campioni disposti in una n × campioni n-quadrati ed etichetta dal loro x ed y -coordinate, cioè denota il campione nella posizione (i, j) ∈N20 da Xij, dove definiamo il campione in l’angolo inferiore sinistro (sud-ovest) deve essere X00. Per molteplicità k = 2, un (N, n, k) -multipool può essere costruito raggruppando lungo righe e colonne, come in Fig.1.
Sfortunatamente, per scelte di parametri ragionevoli, una molteplicità di k = 2 risulta portare a grandi tassi di falsi positivi: ad esempio, disponendo N = 64 campioni da una popolazione con incidenza ρ = 0,01 in una griglia rettangolare e raggruppandoli lungo tutte le righe e le colonne (nella nostra notazione questo è un (64,8,2) -multipool), Identity (6) implica che in media il 31,4% dei risultati positivi saranno effettivamente falsi positivi. Per migliorare questo e passare alla molteplicità k = 3, si può campionare lungo le diagonali, dove le diagonali vengono continuate periodicamente, vedi Fig.4. Questo funziona per qualsiasi dimensione di piscina n⩾2 e porta al Teorema 2
Siano N = n2 e n⩾2. Allora esiste un (N, n, 3) -multipool, ottenuto campionando lungo righe, colonne e tutte le diagonali periodicamente continue da sud-ovest a nord-est.
Fig. 4
Raggruppamento lungo righe, colonne e diagonali periodicamente continue per disporre N = 64 campioni in 24 pool di dimensione 8 per formare un (64,8,3) -multipool. Diversi motivi e colori di sfondo rappresentano pool diversi.
Nella situazione di N = 64 en = 8, ciò consente la costruzione di un (64,8,3) -multipool in cui, per (6), la probabilità che un risultato positivo sia errato è ridotta al 3,01%. In un tale scenario, si testerebbero 64 individui con 24 test, una compressione di un fattore 0,375. Un tasso di compressione più elevato richiederebbe piscine di dimensioni maggiori n . Poiché il limite inferiore (11) su k nel Teorema 1 è monotono in n , questo a sua volta richiederà anche moltiplicazioni maggiori k al fine di ottenere probabilità di errore di falsi positivi comparabili. Per passare a k = 4, si potrebbe ora essere tentati di raggrupparsi lungo le altre diagonali (nord-ovest-sud-est), ma questo non produrrà un multipool in generale, vedere ad esempio la Fig.5 dove, nel caso n = 8, due diagonali si intersecano in più di un punto, in violazione della Proprietà (M3) nella Definizione 1 .
Fig. 5
Le due diagonali (rossa e blu) si intersecano in due punti (nera). Non possono essere utilizzati entrambi come pool in un multipool.
Ciò è dovuto al fatto che n = 8 ha divisori non banali, cioè non è un numero primo. Le diagonali da sud-ovest a nord-est sono della forma
were, (modn) significa che usiamo modulo aritmetico n , cioè non appena superiamo n − 1, ricominciamo a contare da 0. Queste diagonali sono linee di pendenza +1 e −1, rispettivamente, e la differenza di queste pendenze è 2, che divide 8. Poiché le intersezioni di due di tali linee sono date dalle soluzioni dell’equazione
può esserci più di un j che risolve (16): Infatti, se qualche j0∈ {0,…, 7} risolve (16), allora anche j’≔j + 4 (mod8) è una soluzione, poiché 2j ‘= 2j (mod8).
Più in generale, è noto che per m∈ {1,…, n − 1} e j∈ {0,…, n − 1}, l’equazione
ha una soluzione unica j se e solo se il massimo comun divisore di m e n è 1. Dal momento che questo deve valere per tutti i m∈ {1, …, n-1}, n deve essere un numero primo . In questo caso, gli interi modulo n formano una struttura algebrica chiamata campo , in cui ogni elemento diverso da zero ha un inverso moltiplicativo ben definito.
Per primo n , la soluzione unica di (17) è quindi data da j = m − 1l, dove m − 1 denota l’inverso moltiplicativo di m in aritmetico modulo n .
Ciò suggerisce di utilizzare una piscina di dimensioni primarie n e campionare lungo linee di pendenze diverse, ovvero utilizzare piscine della forma
Possiamo aggiungere un altro tipo di piscina campionando lungo tutte le linee verticali (la loro pendenza può essere considerata come “infinito”) che indichiamo con
Tali insiemi di piscine sono schematizzati in Fig.6 per il caso n = 5.
Fig.6
Piscine di pendenza diversa come nel Teorema 3 per n = 5.
Questa costruzione è anche chiamata Shifted Transversal Design in ( Thierry-Mieg, 2006 ). Riassumiamo i nostri risultati nel seguente Teorema 3
Sia n un numero primo e sia N = n2. Allora, esiste un multiplo (N, n, k) per k = (n + 1), e di conseguenza anche per ogni k minore . Questo multipool è dato raggruppando lungo tutte le linee inclinate, ovvero:
La Fig. 6 contiene un’illustrazione di elementi di tale multipool nel caso n = 5 con molteplicità k = 6. Il teorema 3 consente molteplicità fino a k = n + 1, ma in pratica si vorrà lavorare con molteplicità k molto più basse poiché una molteplicità alta richiederebbe molti test e vanificherebbe lo scopo del raggruppamento.
Da un punto di vista pratico sembra ragionevole generare vasche di grandi dimensioni mediante una sequenza di unioni di due vasche ugualmente diluite.
Ciò porta a dimensioni della piscina che sono una potenza di 2, certamente non un numero primo (tranne 2 stesso).
Un approccio per adattarsi a questo sarebbe la dimensione della popolazione N = n2 dove n è un numero primo appena sotto una potenza di 2, ad esempio n = 31, che è appena inferiore a 32 o n = 61 che è appena inferiore a 64.
Quindi i pool di dimensione n possono essere miscelati aggiungendo un piccolo numero di campioni fittizi negativi e procedendo come se n fosse una potenza di 2.
link di riferimento: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7428746/
Ulteriori informazioni: Noam Shental et al. Test SARS-CoV-2 ad alto rendimento efficiente per rilevare portatori asintomatici, Science Advances (2020). DOI: 10.1126 / sciadv.abc5961