O sequenciamento completo de genoma(SCG) (eu inglês: whole genome sequencing - WGS), também conhecido como sequenciamento de genoma completo, sequenciamento total do genoma, ou sequenciamento do genoma inteiro, é o processo de determinar a totalidade, ou quase a totalidade, da sequência de DNA do genoma de um organismo em um único momento.[2] Isso implica o sequenciamento de todo o DNA cromossômico de um organismo, bem como do DNA contido nas mitocôndrias e, no caso das plantas, no cloroplasto.
O sequenciamento completo do genoma tem sido amplamente usado como ferramenta de pesquisa, mas foi introduzido na clínica em 2014.[3][4][5] No futuro da medicina personalizada, os dados da sequência do genoma completo podem ser uma ferramenta importante para orientar a intervenção terapêutica.[6] A ferramenta de sequenciamento de genes no nível de polimorfismo de nucleotídeo único (single-nucleotide polymorphism - SNP) também é usada para identificar variantes funcionais de estudos de associação e melhorar o conhecimento disponível para pesquisadores interessados em biologia evolutiva e, portanto, pode estabelecer a base para prever a suscetibilidade a doenças e a resposta a medicamentos.
O SGC não deve ser confundido com a impressão genética, que determina apenas a probabilidade de que o material genético tenha vindo de um determinado indivíduo ou grupo e não contém informações adicionais sobre relações genéticas, origem ou suscetibilidade a doenças específicas.[7] Além disso, o sequenciamento completo do genoma não deve ser confundido com métodos que sequenciam subconjuntos específicos do genoma - tais métodos incluem o sequenciamento completo do exoma (SCE, 1-2% do genoma) ou a genotipagem de SNP (< 0,1% do genoma).
Histórico
Os métodos de sequenciamento de DNA usados nas décadas de 1970 e 1980 eram manuais; por exemplo, o sequenciamento Maxam-Gilbert e o sequenciamento Sanger. Vários bacteriófagos inteiros e genomas virais de animais foram sequenciados por essas técnicas, mas a mudança para métodos de sequenciamento mais rápidos e automatizados na década de 1990 facilitou o sequenciamento de genomas bacterianos e eucarióticos maiores.[9]
O primeiro vírus a ter seu genoma completo sequenciado foi o bacteriófago MS2, em 1976.[10] Em 1992, o cromossomo III de uma levedura foi o primeiro cromossomo de qualquer organismo a ser totalmente sequenciado.[11] O primeiro organismo cujo genoma completo foi totalmente sequenciado foi o Haemophilus influenzae, em 1995.[12] Depois dele, os genomas de outras bactérias e de algumas arqueas foram sequenciados pela primeira vez, em grande parte devido ao tamanho pequeno do genoma. O H. influenzae tem um genoma de 1.830.140 pares de bases de DNA.[12] Em contraste, os eucariotos, tanto unicelulares quanto multicelulares, como a Amoeba dubia e os seres humanos (Homo sapiens), respectivamente, têm genomas muito maiores (paradoxo do valor C).[13] A A. dubia tem um genoma de 700 bilhões de pares de nucleotídeos espalhados por milhares de cromossomos.[14] Os seres humanos contêm menos pares de nucleotídeos (cerca de 3,2 bilhões em cada célula germinativa; observe que o tamanho exato do genoma humano ainda está sendo revisado) do que a A. dubia, no entanto, o tamanho do genoma deles supera em muito o tamanho do genoma de bactérias individuais.[15]
Os primeiros genomas bacterianos e arqueanos, inclusive o do H. influenzae, foram sequenciados pelo sequenciamento Shotgun.[12] Em 1996, o primeiro genoma eucariótico (Saccharomyces cerevisiae) foi sequenciado. S. cerevisiae, um organismo modelo na biologia, tem um genoma de apenas cerca de 12 milhões de pares de nucleotídeos,[16] e foi o primeiro eucarioto unicelular a ter seu genoma completo sequenciado. O primeiro eucarioto multicelular, e animal, a ter seu genoma completo sequenciado foi o verme nematoide: Caenorhabditis elegans em 1998.[17] Os genomas eucarióticos são sequenciados por vários métodos, incluindo o sequenciamento Shotgun de fragmentos curtos de DNA e o sequenciamento de clones maiores de DNA de bibliotecas de DNA, como cromossomos artificiais bacterianos (bacterial artificial chromosomes - BAC) e cromossomos artificiais de levedura (yeast artificial chromosomes - YAC).[18]
Em 1999, foi publicada toda a sequência de DNA do cromossomo humano 22, o autossomo humano mais curto.[19] No ano 2000, o segundo genoma animal e o segundo invertebrado (mas o primeiro de inseto) foi sequenciado - o da mosca-das-frutas Drosophila melanogaster - uma escolha popular de organismo modelo em pesquisa experimental.[20] O primeiro genoma de planta, o do organismo modelo Arabidopsis thaliana, também foi totalmente sequenciado em 2000.[21] Em 2001, foi publicado um rascunho da sequência completa do genoma humano.[22] O genoma do camundongo de laboratório Mus musculus foi concluído em 2002.[23]
Em 2004, o Projeto Genoma Humano publicou uma versão incompleta do genoma humano.[24] Em 2008, um grupo de Leida, na Holanda, relatou o sequenciamento do primeiro genoma humano feminino (Marjolein Kriek).
Atualmente, milhares de genomas foram total ou parcialmente sequenciados.
Detalhes experimentais
Células usadas para sequenciamento
Praticamente qualquer amostra biológica que contenha uma cópia completa do DNA, mesmo uma quantidade muito pequena de DNA ou DNA antigo, pode fornecer o material genético necessário para o sequenciamento completo do genoma. Essas amostras podem incluir saliva, células epiteliais, medula óssea, cabelo (desde que o cabelo contenha um folículo piloso), sementes, folhas de plantas ou qualquer outra coisa que tenha células contendo DNA.
A sequência do genoma de uma única célula selecionada de uma população mista de células pode ser determinada usando técnicas de sequenciamento do genoma de uma única célula. Isso tem vantagens importantes na microbiologia ambiental nos casos em que uma única célula de uma determinada espécie de microrganismo pode ser isolada de uma população mista por microscopia com base em suas características morfológicas ou outras características distintivas. Nesses casos, as etapas normalmente necessárias de isolamento e crescimento do organismo em cultura podem ser omitidas, permitindo assim o sequenciamento de um espectro muito maior de genomas de organismos.[25]
O sequenciamento do genoma de uma única célula está sendo testado como um método de diagnóstico genético pré-implantação, em que uma célula do embrião criado por fertilização in vitro é coletada e analisada antes da transferência do embrião para o útero.[26] Após a implantação, o DNA fetal sem células pode ser coletado por simples punção venosa da mãe e usado para o sequenciamento do genoma completo do feto.[27]
Técnicas iniciais
O sequenciamento de quase todo o genoma humano foi realizado pela primeira vez em 2000, em parte por meio do uso da tecnologia de sequenciamento Shotgun. Embora o sequenciamento Shotgun do genoma completo para genomas pequenos (4.000 a 7.000 pares de bases) já estivesse em uso em 1979,[28] uma aplicação mais ampla se beneficiou do sequenciamento final em pares, conhecido popularmente como sequenciamento Shotgun double-barrel. À medida que os projetos de sequenciamento começaram a assumir genomas mais longos e complicados, vários grupos começaram a perceber que informações úteis poderiam ser obtidas com o sequenciamento de ambas as extremidades de um fragmento de DNA. Embora o sequenciamento de ambas as extremidades do mesmo fragmento e a manutenção do controle dos dados emparelhados fossem mais complicados do que o sequenciamento de uma única extremidade de dois fragmentos distintos, o conhecimento de que as duas sequências estavam orientadas em direções opostas e tinham aproximadamente o comprimento de um fragmento de diferença entre si era valioso para a reconstrução da sequência do fragmento-alvo original.
A primeira descrição publicada do uso de extremidades emparelhadas foi em 1990, como parte do sequenciamento do locus HPRT humano,[29] embora o uso de extremidades emparelhadas tenha se limitado a fechar lacunas após a aplicação de uma abordagem tradicional de sequenciamento Shotgun. A primeira descrição teórica de uma estratégia pura de sequenciamento de extremidades em pares, pressupondo fragmentos de comprimento constante, foi feita em 1991.[30] Em 1995, foi introduzida a inovação do uso de fragmentos de tamanhos variados,[31] e foi demonstrado que uma estratégia pura de sequenciamento de extremidades em pares seria possível em alvos grandes. A estratégia foi posteriormente adotada pelo Instituto de Pesquisa Genômica (The Institute for Genomic Research - TIGR) para sequenciar todo o genoma da bactéria H. influenzae em 1995,[32] e depois pela Celera Genomics para sequenciar todo o genoma da mosca-das-frutas em 2000,[33] e, posteriormente, todo o genoma humano. A Applied Biosystems, agora chamada Life Technologies, fabricou os sequenciadores capilares automatizados utilizados pela Celera Genomics e pelo Projeto Genoma Humano.
Embora o sequenciamento capilar tenha sido a primeira abordagem a sequenciar com sucesso um genoma humano quase completo, ele ainda é muito caro e leva muito tempo para fins comerciais. Desde 2005, o sequenciamento capilar tem sido progressivamente substituído por tecnologias de sequenciamento de alto rendimento (de "próxima geração"), como o sequenciamento com corante Illumina, o pirosequenciamento e o sequenciamento SMRT.[34] Todas essas tecnologias continuam a empregar a estratégia básica de Shotgun, ou seja, paralelização e geração de modelos por meio da fragmentação do genoma.
Outras tecnologias surgiram, inclusive a tecnologia Nanopore. Embora a precisão do sequenciamento da tecnologia Nanopore seja menor do que as anteriores, seu comprimento de leitura é, em média, muito maior.[35] Essa geração de leituras longas é valiosa, especialmente em aplicações de sequenciamento de novo de genoma completo.[36]
Análise
Em princípio, o sequenciamento completo do genoma pode fornecer a sequência bruta de nucleotídeos do DNA de um organismo individual em um único momento. No entanto, uma análise mais aprofundada deve ser realizada para fornecer o significado biológico ou médico dessa sequência, por exemplo, como esse conhecimento pode ser usado para ajudar a prevenir doenças. Os métodos de análise de dados de sequenciamento estão sendo desenvolvidos e refinados.
Como o sequenciamento gera muitos dados (por exemplo, há aproximadamente seis bilhões de pares de bases em cada genoma diploide humano), seu resultado é armazenado eletronicamente e requer uma grande capacidade de computação e armazenamento.
Embora a análise dos dados WGS possa ser lenta, é possível acelerar essa etapa com o uso de hardware dedicado.[37]
Comercialização
Várias empresas públicas e privadas estão competindo para desenvolver uma plataforma de sequenciamento de genoma completo que seja comercialmente robusta para pesquisa e uso clínico,[38] incluindo Illumina,[39] Knome,[40] Sequenom,[41] 454 Life Sciences,[42] Pacific Biosciences,[43] Complete Genomics,[44] Helicos Biosciences,[45] GE Global Research (General Electric), Affymetrix, IBM, Intelligent Bio-Systems,[46]Life Technologies, Oxford Nanopore Technologies,[47] e o Instituto de Genômica de Pequim.[48][49][50] Essas empresas são fortemente financiadas e apoiadas por investidores de capital de risco, fundo de cobertura e bancos de investimento.[51][52]
Uma meta comercial comumente referenciada para o custo de sequenciamento até o final da década de 2010 era de US$ 1.000; no entanto, as empresas privadas estão trabalhando para atingir uma nova meta de apenas US$ 100.[53]
Incentivos
Em outubro de 2006, a Fundação X Prize, trabalhando em colaboração com a Fundação J. Craig Venter, estabeleceu o Prêmio Archon X de Genômica,[54] com a intenção de conceder US$ 10 milhões para "a primeira equipe que puder construir um dispositivo e usá-lo para sequenciar 100 genomas humanos em 10 dias ou menos, com uma precisão de não mais do que um erro em cada 1.000.000 de bases sequenciadas, com sequências que cubram com precisão pelo menos 98% do genoma e a um custo recorrente de não mais do que US$ 1.000 por genoma".[55] O Prêmio Archon X de Genômica foi cancelado em 2013, antes de sua data oficial de início.[56][57]
História
Em 2007, a Applied Biosystems começou a vender um novo tipo de sequenciador chamado SOLiD System.[58] A tecnologia permitia que os usuários sequenciassem 60 gigabases por execução.[59]
Em junho de 2009, a Illumina anunciou que estava lançando seu próprio Serviço de Sequenciamento do Genoma Completo Pessoal com uma cobertura de 30× por US$ 48.000 por genoma.[60][61] Em agosto, o fundador da Helicos Biosciences, Stephen Quake, declarou que, usando o Sequenciador de Molécula Única da empresa, ele sequenciou seu próprio genoma completo por menos de US$ 50.000.[62] Em novembro, a Complete Genomics começou a vender o sequenciador SOLiD System.[62] Em novembro, a Complete Genomics publicou um artigo revisado por pares na Science demonstrando sua capacidade de sequenciar um genoma humano completo por US$ 1.700.[63][64]
Em maio de 2011, a Illumina reduziu seu serviço de sequenciamento do genoma completo para US$ 5.000 por genoma humano, ou US$ 4.000 se encomendar 50 ou mais.[65] Helicos Biosciences, Pacific Biosciences, Complete Genomics, Illumina, Sequenom, ION Torrent Systems, Halcyon Molecular, NABsys, IBM e GE Global parecem estar disputando a corrida para comercializar o sequenciamento do genoma completo.[34][66]
Com a redução dos custos de sequenciamento, várias empresas começaram a afirmar que seus equipamentos logo atingiriam o genoma de US$ 1.000: essas empresas incluíam a Life Technologies em janeiro de 2012,[67] a Oxford Nanopore Technologies em fevereiro de 2012,[68] e a Illumina em fevereiro de 2014.[69][70] Em 2015, o NHGRI estimou o custo de obtenção de uma sequência do genoma completo em cerca de US$ 1.500.[71] Em 2016, a Veritas Genetics começou a vender o sequenciamento do genoma completo, incluindo um relatório sobre algumas das informações do sequenciamento, por US$ 999.[72] No verão de 2019, a Veritas Genetics reduziu o custo do WGS para US$ 599.[73] Em 2017, a BGI começou a oferecer o WGS por US$ 600.[74]
No entanto, em 2015, alguns observaram que o uso efetivo do sequenciamento de genes inteiros pode custar consideravelmente mais de US$ 1.000.[75] Além disso, segundo informações, ainda há partes do genoma humano que não foram totalmente sequenciadas até 2017.[76][77]
Comparação com outras tecnologias
Microarranjos de DNA
O sequenciamento completo do genoma fornece informações sobre um genoma que é ordens de grandeza maior do que as dos microarranjos de DNA, o líder anterior em tecnologia de genotipagem.
Para os seres humanos, as matrizes de DNA atualmente fornecem informações genotípicas sobre até um milhão de variantes genéticas,[78][79][80] enquanto o sequenciamento completo do genoma fornecerá informações sobre todos os seis bilhões de bases do genoma humano, ou seja, 3.000 vezes mais dados. Por isso, o sequenciamento completo do genoma é considerado uma inovação disruptiva para os mercados de matrizes de DNA, pois a precisão de ambos varia de 99,98% a 99,999% (em regiões de DNA não repetitivas) e seu custo de consumíveis de US$ 5.000 por 6 bilhões de pares de bases é competitivo (para algumas aplicações) com as matrizes de DNA (US$ 500 por 1 milhão de pares de bases).[42]
Aplicações
Frequências de mutação
O sequenciamento do genoma completo estabeleceu a frequência de mutação para genomas humanos completos. A frequência de mutação no genoma inteiro entre gerações de seres humanos (de pai para filho) é de cerca de 70 novas mutações por geração.[81][82] Um nível ainda menor de variação foi encontrado comparando-se o sequenciamento do genoma inteiro em células sanguíneas de um par de monozigóticos (gêmeos idênticos) de 100 anos de idade.[83] Foram encontradas apenas 8 diferenças somáticas, embora a variação somática que ocorre em menos de 20% das células sanguíneas não seria detectada.
Nas regiões especificamente codificadoras de proteínas do genoma humano, estima-se que haja cerca de 0,35 mutações que alterariam a sequência de proteínas entre as gerações pai/filho (menos de uma proteína mutada por geração).[84]
No câncer, as frequências de mutação são muito mais altas, devido à instabilidade do genoma. Essa frequência pode depender ainda da idade do paciente, da exposição a agentes danificadores do DNA (como irradiação UV ou componentes da fumaça do tabaco) e da atividade/inatividade dos mecanismos de reparo do DNA [carece de fontes]. Além disso, a frequência de mutação pode variar entre os tipos de câncer: nas células germinativas, as taxas de mutação ocorrem em aproximadamente 0,023 mutações por megabase (Mb), mas esse número é muito maior no câncer de mama (1,18-1,66 mutações somáticas por Mb), no câncer de pulmão (17,7) ou em melanomas (≈33).[85] Como o genoma humano haploide consiste em aproximadamente 3.200 megabases,[86] isso se traduz em cerca de 74 mutações (principalmente em regiões não codificantes) no DNA de células germinativas por geração, mas 3.776-5.312 mutações somáticas por genoma haploide no câncer de mama, 56.640 no câncer de pulmão e 105.600 em melanomas.
A distribuição de mutações somáticas no genoma humano é muito desigual,[87] de modo que as regiões ricas em genes e de replicação precoce recebem menos mutações do que a heterocromatina pobre em genes e de replicação tardia, provavelmente devido à atividade diferencial de reparo do DNA.[88] Em particular, a modificação da histona H3K9me3 está associada a altas frequências de mutação,[89] e a H3K36me3 a baixas frequências de mutação.[90]
Na pesquisa, o sequenciamento de todo o genoma pode ser usado em um estudo de associação de genoma completo (Genome-Wide Association Study - GWAS), um projeto que visa determinar a variante ou variantes genéticas associadas a uma doença ou a algum outro fenótipo.[91]
Uso em diagnósticos
Em 2009, a Illumina lançou seus primeiros sequenciadores de genoma completo aprovados para uso clínico, e não apenas para pesquisa, e os médicos de centros médicos acadêmicos começaram a usá-los discretamente para tentar diagnosticar o que havia de errado com pessoas que as abordagens padrão não tinham conseguido ajudar.[92] Em 2009, uma equipe de Stanford liderada por Euan Ashley realizou a interpretação clínica de um genoma humano completo, o do bioengenheiro Stephen Quake.[93] Em 2010, a equipe de Ashley relatou uma autópsia molecular de genoma completo[94] e, em 2011, estendeu a estrutura de interpretação a uma família totalmente sequenciada, a família West, que foi a primeira família a ser sequenciada na plataforma Illumina.[95] O preço para sequenciar um genoma naquela época era de US$ 19.500, que era cobrado do paciente, mas geralmente pago com uma bolsa de pesquisa; uma pessoa naquela época solicitou o reembolso de sua seguradora.[92] Por exemplo, uma criança precisou de cerca de 100 cirurgias quando tinha três anos de idade e seu médico recorreu ao sequenciamento do genoma completo para determinar o problema; foi necessária uma equipe de cerca de 30 pessoas, incluindo 12 especialistas em bioinformática, três técnicos de sequenciamento, cinco médicos, dois conselheiros genéticos e dois especialistas em ética para identificar uma mutação rara no XIAP que estava causando problemas generalizados.[92][96][97]
Devido às recentes reduções de custo, o sequenciamento do genoma completo tornou-se uma aplicação realista em diagnósticos de DNA. Em 2013, o consórcio 3Gb-TEST obteve financiamento da União Europeia para preparar o sistema de saúde para essas inovações em diagnósticos de DNA.[98][99] Esquemas de avaliação de qualidade, avaliação de tecnologia de saúde e diretrizes precisam ser implementados. O consórcio 3Gb-TEST identificou a análise e a interpretação dos dados de sequência como a etapa mais complicada do processo de diagnóstico.[100] Na reunião do consórcio em Atenas, em setembro de 2014, o consórcio cunhou a palavra genotradução para essa etapa crucial. Essa etapa leva ao chamado genoreport. São necessárias diretrizes para determinar o conteúdo exigido desses relatórios.
O Genomes2People (G2P), uma iniciativa do Brigham and Women's Hospital e da Escola de Medicina de Harvard, foi criado em 2011 para examinar a integração do sequenciamento genômico no atendimento clínico de adultos e crianças.[101] O diretor do G2P, Robert C. Green, já havia liderado o estudo REVEAL (Risk Evaluation and Education for Alzheimer's Disease) uma série de ensaios clínicos que exploram as reações dos pacientes ao conhecimento de seu risco genético para Alzheimer.[102][103] Green e uma equipe de pesquisadores lançaram o Projeto BabySeq em 2013 para estudar as consequências éticas e médicas do sequenciamento do DNA de um bebê.[104][105] Uma segunda fase, BabySeq2, foi financiada pelo NIH em 2021 e é um estudo de implementação que expande esse projeto, planejando inscrever 500 bebês de diversas famílias e acompanhar os efeitos de seu sequenciamento genômico em seus cuidados pediátricos.[106]
Em 2018, pesquisadores do Instituto de Medicina Genômica da Rady Children's, em San Diego, Califórnia, determinaram que o sequenciamento rápido do genoma completo (rWGS) pode diagnosticar distúrbios genéticos a tempo de alterar o tratamento médico ou cirúrgico agudo (utilidade clínica) e melhorar os resultados em bebês com doenças agudas. Os pesquisadores relataram um estudo de coorte retrospectivo de bebês com doenças agudas internados em um hospital infantil regional de julho de 2016 a março de 2017. Quarenta e duas famílias receberam rWGS para diagnóstico etiológico de distúrbios genéticos. A sensibilidade diagnóstica do rWGS foi de 43% (18 de 42 bebês) e 10% (4 de 42 bebês) para testes genéticos padrão (P = 0,0005). A taxa de utilidade clínica do rWGS (31%, 13 de 42 bebês) foi significativamente maior do que a dos testes genéticos padrão (2%, 1 de 42; P = 0,0015). Onze (26%) bebês com diagnóstico de rWGS evitaram a morbidade, um teve uma redução de 43% na probabilidade de mortalidade e um começou a receber cuidados paliativos. Em seis dos onze bebês, as mudanças no tratamento reduziram o custo de internação em US$ 800.000 a US$ 2.000.000. Essas descobertas reproduzem um estudo anterior sobre a utilidade clínica da rWGS em bebês com doenças agudas internados e demonstram melhores resultados e economia líquida na área da saúde. A rWGS merece ser considerada como um teste de primeira linha nesse cenário.[107]
Uma análise de 2018 de 36 publicações constatou que o custo do sequenciamento do genoma completo varia de US$ 1.906 a US$ 24.810 e tem uma grande variação no rendimento do diagnóstico, de 17% a 73%, dependendo dos grupos de pacientes.[108]
Estudo de associação de variantes raras
Os estudos de sequenciamento do genoma completo permitem a avaliação de associações entre características complexas e variantes raras codificantes e não codificantes (frequência alélica menor (MAF) < 1%) em todo o genoma. Em geral, as análises de variante única têm baixo poder de identificar associações com variantes raras, e testes de conjuntos de variantes foram propostos para testar conjuntamente os efeitos de determinados conjuntos de várias variantes raras.[109] As anotações de SNP ajudam a priorizar as variantes funcionais raras, e a incorporação dessas anotações pode aumentar efetivamente o poder da associação genética da análise de variantes raras de estudos de sequenciamento de genoma completo.[110] Algumas ferramentas foram desenvolvidas especificamente para fornecer uma análise completa de associação de variantes raras para dados de sequenciamento de genoma completo, incluindo a integração de dados de genótipo e suas anotações funcionais, análise de associação, resumo e visualização de resultados.[111][112]
A meta-análise de estudos de sequenciamento de genoma completo oferece uma solução atraente para o problema da coleta de amostras grandes para a descoberta de variantes raras associadas a fenótipos complexos. Alguns métodos foram desenvolvidos para permitir a análise de associação de variantes raras funcionalmente informadas em coortes em escala de biobanco usando abordagens eficientes para o armazenamento de estatísticas resumidas.[113]
Oncologia
Nesse campo, o sequenciamento do genoma completo representa um grande conjunto de melhorias e desafios a serem enfrentados pela comunidade científica, pois possibilita a análise, a quantificação e a caracterização do DNA tumoral circulante (ctDNA) na corrente sanguínea. Isso serve como base para o diagnóstico precoce do câncer, seleção de tratamento e monitoramento de recidivas, bem como para determinar os mecanismos de resistência, metástase e padrões filogenéticos na evolução do câncer. Ele também pode ajudar na seleção de tratamentos individualizados para pacientes que sofrem dessa patologia e observar como os medicamentos existentes estão funcionando durante a progressão do tratamento. O sequenciamento profundo do genoma completo envolve uma reconstrução subclonal com base no ctDNA no plasma que permite um perfil epigenômico e genômico completo, mostrando a expressão do DNA tumoral circulante em cada caso.[114]
Preocupações éticas
A introdução do sequenciamento do genoma completo pode ter implicações éticas.[115] Por um lado, os testes genéticos podem potencialmente diagnosticar doenças evitáveis, tanto no indivíduo submetido a testes genéticos quanto em seus parentes.[115] Por outro lado, os testes genéticos têm possíveis desvantagens, como discriminação genética, perda de anonimato e impactos psicológicos, como a descoberta de não paternidade.[116]
Alguns especialistas em ética insistem que a privacidade dos indivíduos que se submetem a testes genéticos deve ser protegida,[115] e isso é particularmente preocupante quando menores de idade se submetem a testes genéticos.[117] O CEO da Illumina, Jay Flatley, afirmou em fevereiro de 2009 que "até 2019 terá se tornado rotina mapear os genes dos bebês quando eles nascerem".[118] Esse uso em potencial do sequenciamento do genoma é altamente controverso, pois vai contra as normas éticas estabelecidas para testes genéticos preditivos de menores assintomáticos que foram bem estabelecidas nos campos da genética médica e do aconselhamento genético.[119][120][121][122] As diretrizes tradicionais para testes genéticos foram desenvolvidas ao longo de várias décadas, desde que se tornou possível testar marcadores genéticos associados a doenças, antes do advento da triagem genética abrangente e econômica.
Quando um indivíduo se submete ao sequenciamento do genoma completo, ele revela informações não apenas sobre suas próprias sequências de DNA, mas também sobre as prováveis sequências de DNA de seus parentes genéticos próximos.[115] Essas informações podem revelar ainda mais informações preditivas úteis sobre os riscos de saúde presentes e futuros dos parentes.[123] Portanto, há questões importantes sobre quais obrigações, se houver, são devidas aos membros da família dos indivíduos que estão se submetendo a testes genéticos. Na sociedade ocidental/europeia, os indivíduos testados são geralmente incentivados a compartilhar informações importantes sobre qualquer diagnóstico genético com seus parentes próximos, uma vez que a importância do diagnóstico genético para a prole e outros parentes próximos é geralmente um dos motivos para a busca de um teste genético em primeiro lugar.[115] No entanto, um grande dilema ético pode se desenvolver quando os pacientes se recusam a compartilhar informações sobre um diagnóstico feito para um distúrbio genético grave que é altamente evitável e onde há um alto risco para os parentes que carregam a mesma mutação da doença. Nessas circunstâncias, o clínico pode suspeitar que os parentes prefeririam saber do diagnóstico e, portanto, o clínico pode enfrentar um conflito de interesses com relação ao sigilo médico-paciente.[115]
As preocupações com a privacidade também podem surgir quando o sequenciamento do genoma completo é usado em estudos de pesquisa científica. Os pesquisadores geralmente precisam colocar informações sobre os genótipos e fenótipos dos pacientes em bancos de dados científicos públicos, como bancos de dados específicos de locus.[115] Embora apenas dados anônimos de pacientes sejam enviados para bancos de dados específicos de locus, os pacientes ainda podem ser identificáveis por seus parentes no caso de encontrarem uma doença rara ou uma mutação missense rara.[115] A discussão pública sobre a introdução de técnicas forenses avançadas (como pesquisa familiar avançada usando sites públicos de ancestralidade de DNA e abordagens de fenotipagem de DNA) tem sido limitada, desarticulada e sem foco. À medida que a genética forense e a genética médica convergem para o sequenciamento do genoma, as questões relacionadas aos dados genéticos tornam-se cada vez mais conectadas, e talvez seja necessário estabelecer proteções legais adicionais.[124]
Sequências públicas do genoma humano
Os primeiros genomas humanos quase completos sequenciados foram dois americanos de ascendência predominantemente do noroeste europeu em 2007 (J. Craig Venter com cobertura de 7,5 vezes,[125][126][127] e James Watson com 7,4 vezes).[128][129][130] Em seguida, em 2008, houve o sequenciamento de um homem anônimo chinês da etnia Han (com cobertura de 36 vezes),[131] de um homem iorubano da Nigéria (com cobertura de 30 vezes),[132] de uma geneticista clínica (Marjolein Kriek) da Holanda (com cobertura de 7 a 8 vezes) e de uma paciente com leucemia na faixa dos 50 anos (com cobertura de 33 e 14 vezes para tecidos normais e tumorais). [133]Steve Jobs foi uma das primeiras 20 pessoas a ter seu genoma completo sequenciado, supostamente pelo custo de US$ 100.000.[134] Em junho de 2012, havia 69 genomas humanos quase completos disponíveis publicamente.[135] Em novembro de 2013, uma família espanhola disponibilizou publicamente seus dados genômicos pessoais sob uma licença de domínio público da Creative Commons. O trabalho foi liderado por Manuel Corpas e os dados foram obtidos por meio de testes genéticos diretos ao consumidor com a 23andMe e o Instituto de Genômica de Pequim. Acredita-se que esse seja o primeiro conjunto de dados de genômica pública de uma família inteira.
Bancos de dados
De acordo com a Science, os principais bancos de dados de genomas completos são:[136]
Disponibilizado por meio de uma plataforma da web em novembro de 2021, é o maior conjunto de dados públicos de genomas completos. Os genomas estão vinculados a informações médicas anônimas e são mais acessíveis para a pesquisa biomédica do que os conjuntos de dados anteriores, menos abrangentes. Mais 300.000 genomas devem ser lançados no início de 2023.[136][137]
Trans-Omics for Precision Medicine
161.000
Institutos Nacionais da Saúde (National Institutes of Health - NIH) requerem consentimento específico para o projeto.
Em termos de cobertura e precisão genômica, o sequenciamento do genoma completo pode ser classificado em uma das seguintes opções:[138]
Uma sequência preliminar, cobrindo aproximadamente 90% do genoma com aproximadamente 99,9% de precisão
Uma sequência finalizada, cobrindo mais de 95% do genoma com aproximadamente 99,99% de precisão
A produção de uma sequência finalizada de alta qualidade de acordo com essa definição é muito cara. Portanto, a maioria dos resultados do "sequenciamento do genoma completo" humano são sequências de rascunho (às vezes acima e às vezes abaixo da precisão definida).[138]
↑al.], Bruce Alberts ... [et (2008). Molecular biology of the cell 5th ed. New York: Garland Science. p. 551. ISBN978-0-8153-4106-2
↑Fiers, W.; Contreras, R.; Duerinck, F.; Haegeman, G.; Iserentant, D.; Merregaert, J.; Min Jou, W.; Molemans, F.; Raeymaekers, A.; Van den Berghe, A.; Volckaert, G.; Ysebaert, M. (8 de abril de 1976). «Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene». Nature. 260 (5551): 500–507. Bibcode:1976Natur.260..500F. PMID1264203. doi:10.1038/260500a0
↑Oliver, S. G.; van der Aart, Q. J. M.; Agostoni-Carbone, M. L.; et al. (maio de 1992). «The complete DNA sequence of yeast chromosome III». Nature. 357 (6373): 38–46. Bibcode:1992Natur.357...38O. PMID1574125. doi:10.1038/357038a0
↑ abcFleischmann, R.; Adams, M.; White, O; Clayton, R.; Kirkness, E.; Kerlavage, A.; Bult, C.; Tomb, J.; Dougherty, B.; Merrick, J.; al., e. (28 de julho de 1995). «Whole-genome random sequencing and assembly of Haemophilus influenzae Rd». Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID7542800. doi:10.1126/science.7542800
↑Pellicer, Jaume; FAY, Michael F.; Leitch, Ilia J. (15 de setembro de 2010). «The largest eukaryotic genome of them all?». Botanical Journal of the Linnean Society. 164 (1): 10–15. doi:10.1111/j.1095-8339.2010.01072.x
↑The Arabidopsis Genome Initiative (14 de dezembro de 2000). «Analysis of the genome sequence of the flowering plant Arabidopsis thaliana». Nature. 408 (6814): 796–815. Bibcode:2000Natur.408..796T. PMID11130711. doi:10.1038/35048692
↑Yurkiewicz, I. R.; Korf, B. R.; Lehmann, L. S. (2014). «Prenatal whole-genome sequencing--is the quest to know a fetus's future ethical?». New England Journal of Medicine. 370 (3): 195–7. PMID24428465. doi:10.1056/NEJMp1215536
↑Edwards, A; Caskey, T (1991). «Closure strategies for random DNA sequencing». Methods: A Companion to Methods in Enzymology. 3 (1): 41–47. doi:10.1016/S1046-2023(05)80162-8
↑Edwards A; Voss H; Rice P; Civitello A; Stegemann J; Schwager C; Zimmermann J; Erfle H; Caskey CT; Ansorge W (abril de 1990). «Automated DNA sequencing of the human HPRT locus». Genomics. 6 (4): 593–608. PMID2341149. doi:10.1016/0888-7543(90)90493-E
↑Roach JC; Boysen C; Wang K; Hood L (março de 1995). «Pairwise end sequencing: a unified approach to genomic mapping and sequencing». Genomics. 26 (2): 345–53. PMID7601461. doi:10.1016/0888-7543(95)80219-C
↑Fleischmann RD; Adams MD; White O; Clayton RA; Kirkness EF; Kerlavage AR; Bult CJ; Tomb JF; Dougherty BA; Merrick JM; McKenney; Sutton; Fitzhugh; Fields; Gocyne; Scott; Shirley; Liu; Glodek; Kelley; Weidman; Phillips; Spriggs; Hedblom; Cotton; Utterback; Hanna; Nguyen; Saudek; et al. (julho de 1995). «Whole-genome random sequencing and assembly of Haemophilus influenzae Rd». Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. PMID7542800. doi:10.1126/science.7542800
↑Hodgkinson, Alan; Chen, Ying; Eyre-Walker, Adam (janeiro de 2012). «The large-scale distribution of somatic mutations in cancer genomes». Human Mutation. 33 (1): 136–143. PMID21953857. doi:10.1002/humu.21616
↑Schuster-Böckler, Benjamin; Lehner, Ben (agosto de 2012). «Chromatin organization is a major influence on regional mutation rates in human cancer cells». Nature. 488 (7412): 504–507. Bibcode:2012Natur.488..504S. PMID22820252. doi:10.1038/nature11273
↑Supek, Fran; Lehner, Ben (julho de 2017). «Clustered Mutation Signatures Reveal that Error-Prone DNA Repair Targets Mutations to Active Genes». Cell. 170 (3): 534–547.e23. PMID28753428. doi:10.1016/j.cell.2017.07.003. hdl:10230/35343
↑Yano, K; Yamamoto, E; Aya, K; Takeuchi, H; Lo, PC; Hu, L; Yamasaki, M; Yoshida, S; Kitano, H; Hirano, K; Matsuoka, M (agosto de 2016). «Genome-wide association study using whole-genome sequencing rapidly identifies new genes influencing agronomic traits in rice.». Nature Genetics. 48 (8): 927–34. PMID27322545. doi:10.1038/ng.3596
↑ abcBorrell, Brendan (14 de setembro de 2010). «US clinics quietly embrace whole-genome sequencing». Nature: news.2010.465. doi:10.1038/news.2010.465
↑Dewey, Frederick E.; Wheeler, Matthew T.; Cordero, Sergio; Perez, Marco V.; Pavlovic, Aleks; Pushkarev, Dmitry; Freeman, James V.; Quake, Steve R.; Ashley, Euan A. (abril de 2011). «Molecular Autopsy for Sudden Cardiac Death Using Whole Genome Sequencing». Journal of the American College of Cardiology. 57 (14): E1159. doi:10.1016/S0735-1097(11)61159-5
↑Dewey, Frederick E.; Chen, Rong; Cordero, Sergio P.; Ormond, Kelly E.; Caleshu, Colleen; Karczewski, Konrad J.; Whirl-Carrillo, Michelle; Wheeler, Matthew T.; Dudley, Joel T.; Byrnes, Jake K.; Cornejo, Omar E.; Knowles, Joshua W.; Woon, Mark; Sangkuhl, Katrin; Gong, Li; Thorn, Caroline F.; Hebert, Joan M.; Capriotti, Emidio; David, Sean P.; Pavlovic, Aleksandra; West, Anne; Thakuria, Joseph V.; Ball, Madeleine P.; Zaranek, Alexander W.; Rehm, Heidi L.; Church, George M.; West, John S.; Bustamante, Carlos D.; Snyder, Michael; Altman, Russ B.; Klein, Teri E.; Butte, Atul J.; Ashley, Euan A. (15 de setembro de 2011). «Phased Whole-Genome Genetic Risk in a Family Quartet Using a Major Allele Reference Sequence». PLOS Genetics. 7 (9): e1002280. PMC3174201. PMID21935354. doi:10.1371/journal.pgen.1002280
↑Schwarze, K; Buchanan, J; Taylor, Jc; Wordsworth, S (maio de 2018). «Are whole Exome and whole Genome Sequencing Approaches Cost-Effective? A Systematic Review of the Literature». Value in Health. 21: S100. doi:10.1016/j.jval.2018.04.677
↑«STAARpipeline: an all-in-one rare-variant tool for biobank-scale whole-genome sequencing data». Nature Methods. 19 (12): 1532–1533. Dezembro de 2022. PMID36316564. doi:10.1038/s41592-022-01641-w
↑Li, Xihao; Quick, Corbin; Zhou, Hufeng; Gaynor, Sheila M.; Liu, Yaowu; Chen, Han; Selvaraj, Margaret Sunitha; Sun, Ryan; Dey, Rounak; Arnett, Donna K.; Bielak, Lawrence F.; Bis, Joshua C.; Blangero, John; Boerwinkle, Eric; Bowden, Donald W.; Brody, Jennifer A.; Cade, Brian E.; Correa, Adolfo; Cupples, L. Adrienne; Curran, Joanne E.; de Vries, Paul S.; Duggirala, Ravindranath; Freedman, Barry I.; Göring, Harald H. H.; Guo, Xiuqing; Haessler, Jeffrey; Kalyani, Rita R.; Kooperberg, Charles; Kral, Brian G.; Lange, Leslie A.; Manichaikul, Ani; Martin, Lisa W.; McGarvey, Stephen T.; Mitchell, Braxton D.; Montasser, May E.; Morrison, Alanna C.; Naseri, Take; O’Connell, Jeffrey R.; Palmer, Nicholette D.; Peyser, Patricia A.; Psaty, Bruce M.; Raffield, Laura M.; Redline, Susan; Reiner, Alexander P.; Reupena, Muagututi’a Sefuiva; Rice, Kenneth M.; Rich, Stephen S.; Sitlani, Colleen M.; Smith, Jennifer A.; Taylor, Kent D.; Vasan, Ramachandran S.; Willer, Cristen J.; Wilson, James G.; Yanek, Lisa R.; Zhao, Wei; NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium; TOPMed Lipids Working Group; Rotter, Jerome I.; Natarajan, Pradeep; Peloso, Gina M.; Li, Zilin; Lin, Xihong (janeiro de 2023). «Powerful, scalable and resource-efficient meta-analysis of rare variant associations in large whole genome sequencing studies». Nature Genetics. 55 (1): 154–164. PMC10084891. PMID36564505. doi:10.1038/s41588-022-01225-6
↑McCabe LL; McCabe ER (junho de 2001). «Postgenomic medicine. Presymptomatic testing for prediction and prevention». Clin Perinatol. 28 (2): 425–34. PMID11499063. doi:10.1016/S0095-5108(05)70094-4
↑Nelson RM; Botkjin JR; Kodish ED; et al. (junho de 2001). «Ethical issues with genetic testing in pediatrics». Pediatrics. 107 (6): 1451–5. PMID11389275. doi:10.1542/peds.107.6.1451
↑Borry P; Fryns JP; Schotsmans P; Dierickx K (fevereiro de 2006). «Carrier testing in minors: a systematic review of guidelines and position papers». Eur. J. Hum. Genet. 14 (2): 133–8. PMID16267502. doi:10.1038/sj.ejhg.5201509