Un microarray di DNA (comunemente conosciuto come gene chip, chip a DNA, biochip o matrici ad alta densità) è un insieme di microscopiche sonde di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio formanti un array (matrice). Tali array permettono di esaminare simultaneamente la presenza di moltissimi geni all'interno di un campione di DNA (che spesso può rappresentare anche tutto il genoma o il trascrittoma di un organismo). Un utilizzo tipico è quello di confrontare il profilo di espressione genica di un individuo malato con quello di uno sano per individuare quali geni sono coinvolti nella malattia.
I microarray sfruttano una tecnica di ibridazione inversa, che consiste nel fissare tutti i segmenti di DNA (detti probe) su un supporto e nel marcare invece l'acido nucleico che vogliamo identificare (detto target). È una tecnica che è stata sviluppata negli anni '90 e oggi permette l'analisi dell'espressione genica monitorando in una sola volta gli RNA prodotti da migliaia di geni.
Per studiare gli mRNA, essi vengono prima estratti dalle cellule, convertiti in cDNA, con l'uso di un enzima chiamato trascrittasi inversa e allo stesso momento marcati con una sonda fluorescente. Quando si fa avvenire l'ibridazione fra la sonda presente sulla matrice e il cDNA target, quest'ultimo rimarrà legato alla sonda e può essere identificato semplicemente rilevando la posizione dove è rimasto legato.
Le principali applicazioni dei microarray sono l'analisi dei polimorfismi SNP, il confronto di popolazioni di RNA di cellule diverse e l'utilizzo per nuove metodologie di sequenziamento del DNA, nonché per lo screening di sequenze senso e antisenso nella ricerca degli oligonucleotidi usati in campo farmaceutico.
Il segmento di DNA legato al supporto solido è noto come probe. In un array sono usati contemporaneamente migliaia di probe. Questa tecnologia è nata da una tecnica più semplice nota come Southern blotting, dove frammenti di DNA attaccati ad un substrato sono testati da sonde geniche aventi sequenze conosciute. La misura dell'espressione genica mediante microarray ha un notevole interesse sia nel campo della ricerca di base che nella diagnostica medica, in particolare di malattie a base genetica, dove l'espressione genetica di cellule sane viene comparata con quella di cellule affette dalla malattia in esame.
Produzione
I microarray possono essere fabbricati usando diverse tecnologie, come la stampa di micro solchi, con un particolare microspillo appuntito su una lastrina di vetro dove verrà attaccata covalentemente la sonda (probe) di materiale genetico ottenuta per clonazione sfruttando la tecnica PCR, (fotolitografia).
Ogni singolo clone viene posizionato nell'esatta posizione sul vetrino da un robot. È evidente che questa tecnica richiede apparecchiature robotiche molto sofisticate.
Il nucleo dell'apparecchiatura è costituito da un "gruppo scrivente" che preleva uno o più campioni di cDNA mediante l'utilizzo di pennini e li trasferisce su vetrini per microscopio, il movimento è ovviamente controllato da un computer. Durante la deposizione il sistema di controllo del robot registra automaticamente tutte le informazioni necessarie alla caratterizzazione e alla completa identificazione di ciascun punto della matrice. Una volta che la sonda è sul vetrino si effettua il processing, il passaggio cioè in cui la sonda viene legata covalentemente al supporto attraverso una reazione innescata dall'irraggiamento con luce ultravioletta o incubando il vetrino a 80 °C per 2 h. Infine il cDNA viene reso a singola catena attraverso una denaturazione termica o chimica. Con questa tecnica però era possibile creare solo microarray a bassa densità (ovvero con poche sonde per mm quadrati).
I DNA microarray possono essere usati per individuare l'RNA che può essere o non essere tradotto in proteine. Gli scienziati chiamano questa analisi "analisi dell’espressione" o profilo d'espressione. Con la tecnologia dei microarray si possono avere decine di migliaia di risultati in pochissimo tempo. Per questo motivo questa tecnologia ha permesso notevoli accelerazioni in diversi campi di investigazione biochimico e biotecnologico.
L'uso di microarray per lo studio del profilo d'espressione genetica è stato pubblicato per la prima volta nel 1995 (Science) e il primo genoma eucariotico completato con analisi di microarray fu quello del Saccharomyces cerevisiae nel 1997 (Science).
Array per fotolitografia
In questo caso gli oligonucleotidi sono sintetizzati in sito, questa tecnica è stata utilizzata per la prima volta dall'Affymetrix, che ne detiene il brevetto. La tecnica per la produzione di questi chip è detta fotolitografia, con la quale è possibile sintetizzare molte migliaia di differenti oligonucleotidi sulla superficie di un vetrino.
Anche se questa tecnica di sintesi è molto accurata, la massima lunghezza degli oligonucleotidi che è possibile raggiungere è di 25 nucleotidi, ma oligonucleotidi di queste dimensioni non sono sufficienti a dare specificità al microarray, per questo servono almeno 3 oligonucleotidi che legano un gene, e altri 3 oligonucleotidi che presentano un mismatch che serviranno da controllo negativo. Per cui le analisi di un singolo gene richiedono lo studio di sei spot che devono avere come risultato: i tre oligonucleotidi corretti, positivi, mentre i tre oligonucleotidi con il mismatch, negativi.
Inoltre ogni volta bisogna fare un chip per il controllo e uno del soggetto da analizzare, perché non si può effettuare un'ibridazione per competizione.
Sui microarray a bassa densità solitamente si usavano marcatori radioattivi, questo tipo di marcatori però non permettono una risoluzione sufficientemente elevata per i chip ad alta densità, con i quali è necessario utilizzare marcatori fluorescenti.
Una volta che il microarray è stato costruito o comprato e il campione di acidi nucleici da analizzare è stato isolato si fa avvenire la reazione di ibridazione, che permette la formazione degli eteroduplex. Per ottenere dei buoni microarray è essenziale difenderli dall'umidità (se l'ambiente è secco la soluzione evapora, se invece è umido si deposita dell'acqua) e dalla polvere (ogni spot è grande circa 50 micron, un granello di polvere e più grande di 50 micron, per cui può coprire vari spot), per questo motivo esistono delle camere apposite per l'ibridazione dei microarray che vengono sigillate. Dopo l'ibridazione il microarray viene lavato per rimuovere il cDNA che non si è legato.
Generalmente il Dna fluorescente dei campioni sperimentali è mescolato con un Dna di un soggetto di controllo marcato con un colorante fluorescente diverso. Per i microarray si usano solitamente Cy3 (che emette una lunghezza d'onda nel campo del verde) e Cy5 (che emette nel campo del rosso). In questo modo se la quantità di RNA espressa da un gene nelle cellule di interesse è aumentata (up regolata) rispetto a quella del campione di riferimento, lo spot che ne risulta sarà del colore del primo fluorescente. Viceversa se l'espressione del gene è diminuita (down regolata) rispetto al campione di riferimento lo spot sarà colorato dal secondo fluorescente.
La fluorescenza è rilevata poi grazie ad uno scanner a laser, grazie al quale si acquisisce un'immagine per ogni fluoroforo. Poi vengono usati dei software appositi per convertire i segnali in una gamma di colori dipendente dalla loro intensità. Il segnale rilevato dallo scanner viene poi sottoposto ad altri algoritmi di filtrazione e di pulizia e convertito in valori numerici.
Il principale problema dei microarray è la mancanza di standardizzazione, che causa difficoltà nel confronto di dati; inoltre, se oggi con questa tecnica è possibile analizzare i livelli di espressione di un singolo gene ottenendo degli ottimi risultati, la combinazione dello studio di molte migliaia di geni risulta molto complicato e può portare spesso a dei falsi positivi, questo accade anche a causa del fatto che alcuni cDNA possono cross-ibridare altre sonde (che avrebbero dovuto rilevare altri geni). Un altro problema è presentato dai fluorofori, che nonostante siano molto simili fra loro presentano delle differenze problematiche. Esiste una diversa efficienza di fluorescenza tra Cy3 e Cy5 che deve essere standardizzata dai software di rilevazione, inoltre poiché Cy3 è più piccolo di Cy5, c'è un diverso livello di incorporazione del due fluorofori, in quanto la polimerasi presenta più difficoltà a inserire il nucleotide marcato con Cy5 a causa dell'ingombro sterico; come se non bastasse Cy5 si presenta più labile di Cy3, quindi una prima scansione di Cy3 con il laser potrebbe ridurre la fluorescenza di Cy5. Per ovviare a tutte questa problematiche e per creare un minimo di standardizzazione si effettua il dye swap: consiste nel effettuare un secondo microarray scambiando l'uso dei fluorofori. Se nel primo microarray Cy3 è stato usato per marcare il cDNA sperimentale, nel secondo microarray si userà Cy3 per marcare il cDNA del soggetto di controllo, e viceversa per Cy5.
Spotted microarrays
Negli spotted microarrays (o microarray a doppio canale), I probe sono oligonucleotidi, cDNA o piccoli frammenti prodotti con la tecnologia PCR corrispondenti a mRNA. Questo tipo di microarray sfrutta l'ibridazione di DNA con cDNA da due campioni comparati (es. paziente e controllo), che sono marcate con due differenti fluorofori. I campioni possono essere miscelati e ibridizzati in un singolo microarray e quindi analizzati, permettendo la visualizzazione dei geni up-regolati e down-regolati contemporaneamente. Con questa tecnica il livello assoluto dell'espressione genica non può essere apprezzata a pieno, ma il costo dell'analisi è ridotto della metà.
Microarray di oligonucleotidi
Nei Microarray di oligonucleotidi (o single-channel microarrays), i probe sono progettati per riconoscere parti di sequenze di mRNA conosciute o predette. Vi sono matrici microarray di tal specie commercializzate da numerose ditte specializzate come GE Healthcare, Affymetrix, or Agilent, esse contengono oligonucleotidi importanti per alcune analisi di routine o addirittura grosse parti di genomi di vari esseri viventi; inoltre possono essere prodotte matrici ad hoc a richiesta al fine di soddisfare qualsiasi bisogno, per la ricerca o la diagnostica.
Array oligonucleotidici possono essere prodotti o per deposizione piezoelettrica dell'intera lunghezza dell'oligo, o per sintesi in situ (fotolitografia).
Array di oligonucleotidi lunghi sono composti da 60-meri (oligo costituiti da 60 basi) e sono prodotti con la tecnologia ink-jet printing su substrati di silicio. Array di oligonucleotidi corti sono composti da 25-meri or 30-meri e sono prodotti per sintesi fotolitografica su substrati di silicio (Affymetrix) o per deposizione piezoelettrica su matrici acrilammidiche (GE Healthcare). Più recentemente, la NimbleGen Systems ha sintetizzato nuove matrici, dette Maskless Array, che possono essere utilizzate in modo flessibile con numerosissimi oligonucleotidi test (probe): i nucleotidi che formeranno gli oligonucleotidi sono dei nucleotidi modificati che presentano un gruppo protettore fotolabile che, finché è presente, ne impedisce il legame all'oligonucleotide in crescita. Questo gruppo può essere allontanato con una fonte luminosa che permette ai nucleotidi di reagire. Si usano delle "maschere" per determinare quali nucleotidi in quale posizione devono essere attivati dalla luce. In questa maniera sequenze oligonucleotidiche specifiche possono essere costruite in posizioni predeterminate. Questa tecnica permette di preparare microarray ad alta densità.
Un array standard può contenere più di 390000 pozzetti test (spots). Nuovi array sono in studio per la ricerca nel campo biochimico (vie metaboliche) o per la diagnosi e la prevenzione in campo medico. In particolare questa tecnica è importante per l'analisi del genoma di soggetti con malattie genetiche o che sono soggetti a potenziali malattie familiari, come il diabete, malattie cardiovascolari o tumori familiari.
Microarray di genotipi
DNA microarray possono essere usati per lo studio di genotipi.
Gli SNP microarray sono particolari DNA microarray che sono usati per identificare i cosiddetti tratti ipervariabili, ovvero quelle sequenze che variano da individuo a individuo nell'ambito della stessa specie adesso o in sottopopolazioni isolate geograficamente o socialmente. Array di oligonucleotidi corti sono usati per identificare il polimorfismo di un singolo nucleotide (single nucleotide polymorphisms) (SNPs), che si pensano responsabili della variazione genetica e della suscettibilità individuale a manifestare determinate malattie. I DNA microarray possono essere usati anche per la genotipizzazione (genotyping), che trova impiego nella medicina forense (esame del DNA), nella diagnostica e in una nuova branca della farmacologia, la farmacogenomica, che si propone di studiare la relazione tra diversità genetica e risposta ai farmaci, intendendo per risposta sia gli effetti terapeutici che quelli collaterali o avversi.
Questi SNP microarray sono usati per tracciare i profili di mutazione somatica nelle cellule tumorali. L'inserzione e la delezione a cui vanno soggette queste cellule possono essere investigate contemporaneamente ai microarray l'ibridazione genomica comparativa.
Microarray e bioinformatica
Standardizzazione
La mancanza di standardizzazione negli array presenta un problema interoperativo nella bioinformatica, che non può prescindere dallo scambio di dati ottenuti con tale tecnica. Diversi progetti open-source si prefiggono di facilitare l'interscambio di dati ottenuti da array. Il "Minimum Information About a Microarray Experiment" (MIAME), standard XML base per la descrizione di esperimenti di microarray, è stato adottato da molti giornali scientifici come standard richiesto per l'accettazione di lavori che contengono risultati ottenuti attraverso analisi di microarray.
Analisi statistica
L'analisi di DNA microarray propone numerosi problemi di carattere statistico, compresa la normalizzazione dei dati.
Analizzando il metodo dei microarray, pare evidente che il grande numero di geni presenti in un singolo array pone lo sperimentatore davanti a un problema di test multiplo: anche se è estremamente raro e casuale, ogni gene può dare un risultato falso positivo; un test effettuato su più geni è più sicuro che mostri un andamento scientificamente più probante. Una differenza fondamentale tra i microarray e gli altri metodi di analisi biomedici tradizionali sta nella dimensione dei dati. Studi che contengono 100 analisi per paziente per 1000 pazienti possono essere considerati vasti studi clinici. Uno studio microarray di media vastità comprende diversi migliaia di dati per campione su centinaia di campioni diversi.
Relazione tra gene e probe
La relazione tra probe e mRNA è molto semplice ma nello stesso tempo complessa. Il probe ha alta affinità con una singola sequenza (quella complementare), ma può legare altre sequenze non prettamente complementari. Ciò potrebbe portare a dati errati.
Protein microarray
Si ottengono utilizzando differenti proteine, fissate su microarray, come sonde. I protein microarray sono usati per identificare le interazioni proteina-proteina o, ad esempio, per identificare i substrati delle proteine chinasi o ancora per identificare gli obiettivi di piccole molecole biologicamente attive.
Le proteine più comunemente usate durante un protein microarray sono gli anticorpi monoclonali, dove gli anticorpi sono stampati sul vetrino e usati come sonde per rilevare le proteine del lisato cellulare. L'uso di anticorpi monoclonali però crea alcuni problemi, compreso il fatto che non esistono anticorpi per la maggior parte delle proteine. Più recentemente ci si sta spingendo verso altri tipi di molecole da usare come sonde, quali peptidi di piccole, medie e grandi dimensioni. Tuttavia, oggi gli anticorpi rappresentano ancora la sonda più efficace per i protein microarray.
I protein microarray (detti anche biochip, proteinchip) sono utilizzati nelle applicazioni biomediche per determinare la presenza e/o la quantità di proteine in campioni biologici, ad esempio nel sangue. Anche se i protein microarray usano metodi di rilevazione simili ai DNA microarray, presentano un altro problema: le concentrazioni delle proteine in un campione biologico possono presentare molti ordini di grandezza di differenza da quelle degli mRNA. Di conseguenza, i metodi di rilevazione dei protein microarray devono avere una gamma molto più vasta di rilevazione. Comunque il metodo preferito di rilevazione è ancora quello per fluorescenza, poiché è sicuro, sensibile e può dare alte risoluzioni.
Lista di aziende che operano nel campo dei microarray