Projet 1000 Genomes

Le projet 1 000 Genomes, démarré en , est une recherche internationale pour établir le catalogue des variations génétiques humaines le plus détaillé. Les scientifiques projettent de séquencer les génomes d'au moins un millier de participants anonymes dans de nombreux groupes ethniques différents dans les trois années, en utilisant les nouvelles technologies qui sont plus rapides et moins coûteuses. En 2010, le projet a terminé sa phase pilote, décrite en détail dans un article de Nature[1]. Depuis fin 2010, le projet est en phase production avec un objectif croissant de séquencer 2 000 individus.

Ce projet réunit des équipes multidisciplinaires d'unités de recherche dans des instituts à travers le monde, incluant le Royaume-Uni, la Chine et les États-Unis. Chacune contribue au travail d'établir l'ensemble des séquences et à améliorer la carte du génome humain, qui sera librement accessible dans des bases publiques de données à la communauté scientifique comme au public.

En fournissant un panorama de toute la diversité génétique humaine, et non seulement de ce qui relève de la biologie médicale, le consortium générera un outil très utile pour tous les champs des sciences biologiques, spécialement dans les disciplines de la génétique, la médecine, la pharmacologie, la biochimie et la bioinformatique[2].

Historique

Dans les trente dernières années, les avancées dans la génétique des populations humaines et la génomique comparative ont rendu possible d'augmenter la compréhension de ce qu'est la diversité génétique. Cependant, nous commençons seulement à comprendre des processus comme le choix aléatoire des gamètes, les mutations (insertions/délétions ou indel), les variations du nombre de copies d'un segment dans le génome (sigle anglais CNV), les rétrotransposons, les polymorphismes nucléotidiques simples (sigle anglais SNP) et la sélection naturelle ont façonné les niveaux et modèles des variations à l'intérieur des espèces et aussi entre espèces[3],[4],[5],[6], sur la comparaison des séquences des régions MHC classe I chez les humains et les chimpanzés qui dévoilent des insertions/délétions comme le moyen principal de la divergence génétique.

Variations génétiques humaines

L'appariement aléatoire des gamètes durant la reproduction conduit à la dérive génétique — une fluctuation aléatoire dans la fréquence d'un caractère dans la population — dans les générations suivantes et il en résulte la perte de toute variation en l'absence de pression externe. On postule que le taux de la dérive génétique est inversement proportionnel à la taille de la population, et qu'elle peut être accélérée dans des situations spécifiques comme les bouchons (en anglais « bottleneck »), où la taille des populations est réduite pendant une certaine période de temps, et par l'effet fondateur (Les individus d'une population descendent d'un petit nombre d'individus fondateurs)[3].

Anzai et al. ont démontré que les indel, comptent pour 90,4 % de toutes les variations observées dans la séquence des locus majeurs d'histocompatibilité (sigle anglais MHC) entre humains et chimpanzés. Après avoir pris de multiples indels en considération, le haut degré de similarité génétique entre les deux espèces (98,6 % d'identité dans la séquence nucléotidique totale) tombe à seulement 86,7 %. Par exemple, une large suppression ("délétion") de 95 kilobases (kb) entre les locus humains pour les gènes MICA et MICB, donne un seul gène hybride du chimpanzé MIC, liant cette région au développement de plusieurs infections rétrovirales spécifiques à l'espèce et la susceptibilité résultante à diverses maladies auto-immunes. Les auteurs concluent qu'au lieu des SNP plus subtils, les indels sont le mécanisme essentiel dans la spéciation des primates[4].

À côté des mutations, SNP et autres modifications structurelles comme le nombre de copies d'un gène (CNV), contribuent à la diversité génétique dans les populations humaines. En utilisant les puces à ADN, près de 1 500 régions à nombre de copies variables, couvrant environ 12 % du génome et contenant des centaines de gènes, de locus de maladies, d'éléments fonctionnels et de duplications de segments, ont été identifiées dans la collection de séquences HapMap. Cependant la fonction spécifique des CNVs reste peu apparente, le fait que les CNVs utilisent plus de contenu nucléotidique dans le génome que les SNP montrent l'importance des CNVs dans la diversité génétique et l'évolution[5].

L'investigation sur les variations génomiques humaines possèdent un grand potentiel pour identifier les gènes qui pourraient sous-tendre des différences dans la résistance aux maladies (exemple région CMH) ou Métabolisme des médicaments[7].

Sélection naturelle

La sélection naturelle dans l'évolution d'un trait peut être divisée en trois classes. La sélection positive ou directionnelle se réfère à la situation où un certain allèle a une plus grande affinité avec d'autres allèles, et en conséquence augmente sa fréquence dans la population (exemple Résistance aux antibiotiques des bactéries). En contraste, la sélection négative ou stabilisatrice (aussi connue sous le nom de sélection purificatrice) abaisse la fréquence ou même supprime des allèles dans une population à cause des désavantages qui lui sont associés en présence d'autres allèles. Finalement, nombre des formes de sélection balancée existent; celles-ci augmentent la diversité à l'intérieur d'une espèce en rendant les individus (hétérozygotes mieux adaptés que les individus homozygotes, exemple G6PD, le gène impliqué dans la drépanocytose et la résistance à la malaria) où la diversité peut varier géographiquement pour une espèce qui habite différentes niches écologiques, favorisant ainsi différents allèles[8]. Quelques différences dans le génome ne peuvent pas affecter sa bonne viabilité. Ce sont les variations neutres, qu'on pensait auparavant être de l'ADN superfétatoire le « junk DNA » et qui ne sont pas affectées par la sélection naturelle donnant une variabilité génétique plus élevée dans de tels sites quand on compare aux sites où les variations influencent la bonne viabilité[9].

Il n'est pas pleinement compris comment la sélection naturelle crée des différences dans la population. Cependant, les régions génétiques candidates à la sélection sont identifiées depuis récemment[6]. Des modèles de polymorphismes ADN peuvent être utilisés avec confiance pour détecter des signatures de sélection et aider à identifier les gènes qui pourraient sous-tendre les variations dans la résistance aux maladies et dans le métabolisme des médicaments[8],[9]. Barreiro et al. ont prouvé que la sélection négative a réduit la différenciation des populations en modifiant au niveau des acides aminés (particulièrement pour les gènes relatifs aux maladies), tandis que la sélection positive assure l'adaptation régionale des populations humaines en augmentant la différenciation régionale dans des segments des gènes (principalement les mutations non-sens ou non synonymes et les variants de l'extrémité du gène non codante 5')[6].

On pense que la plupart des désordres génétiques et des maladies mendéliennes (sauf les maladies d'apparition tardive où on présume que les individus trop âgés ne contribuent plus à de nouvelles naissances) auront un effet sur la survie et/ou la reproduction, ainsi, les facteurs génétiques sous-tendant ces maladies devraient être influencées par la sélection naturelle. La maladie de Gaucher (mutations dans le gène GBA), la maladie de Crohn (mutation de NOD2) et la cardiomyopathie hypertrophique familial (mutations dans CMH1, CMH2, CMH3 et CMH4) sont tous des exemples de sélection négative. Ces mutations cause de maladies sont d'abord récessives et se raréfient comme attendu à une fréquence faible, supportant l'hypothèse de la sélection négative. Peu de cas ont été rapportés où des mutations cause de maladies apparaissent avec une fréquence élevée supportée par la sélection balancée. L'exemple le plus notable est pour les mutations du locus G6PD où, si déficience par homozygotie de l'enzyme G6PD et en conséquence le résultat est la drépanocytose, mais les hétérozygotes sont partiellement protégés contre la malaria. D'autres explications possibles pour la raréfaction des allèles entraînant des maladies à des fréquences modérées ou élevées incluent la dérive génétique et des altérations récentes entraînant une sélection positive causée par des changements environnementaux telles que des diètes ou un « auto-stop génétique » quand le gène responsable accompagne des gènes voisins et favorables dans la reproduction[7].

Les analyses comparatives de larges parties du génome de différentes populations humaines, aussi bien que celles entre des espèces (exemple homme comparé au chimpanzé) nous aident à comprendre les relations entre les maladies, les sélections et fournissent des preuves de mutations dans des gènes sensibles parce qu'ils sont disproportionnellement associés avec des maladies héréditaires (phénotypes). Les gènes impliqués dans des désordres complexes tendent à être sous une sélection moins négative que les gènes de maladies à transmission mendélienne[7].

Description du projet

Buts

Il y a deux sortes de variants génétiques relatifs à des maladies. La première sorte sont de rares variants qui entraînent de sévères et prédominants effets sur de simples traits (exemple la mucoviscidose, la maladie de Huntington).Dans la seconde, plus commune, les variants ont un effet atténué et on les pense être impliqués dans des traits complexes (exemple diabètes, maladies cardiaques). Entre ces deux types de variants il y a un significatif écart dans les connaissances, que le projet 1 000 Genomes est destiné à réduire[2].

Le but premier de ce projet est de créer un catalogue complet et détaillé de la diversité génétique humaine, qui a son tour peut être utilise pour les études transdisciplinaires reliant variation génétique et maladie. En travaillant ainsi le consortium projette de découvrir plus de 95 % des variants (par exemple SNP, CNV, indels) avec de faibles fréquences allèliques aussi basses que 1 % à travers le génome et de 0,1 à 0,5 % dans les gènes, aussi bien que d'estimer leurs fréquences dans la population, leurs liens avec les haplotypes et la structuration des déséquilibres de liaison pour les allèles variants[10].

Les buts seconds incluront l'utilisation de meilleurs SNP, la sélection de sondes pour des plateformes de génotypage des futures études et l'amélioration de la séquence humaine de référence. En plus, la base de données terminée sera un instrument utile pour étudier les régions ADN sous pression de sélection, les variations dans de nombreuses populations et comprendre les processus sous-tendus de mutation et les recombinaisons génétiques[10].

Aperçus

Le génome humain consiste approximativement de 3 milliards de paires de bases ADN et est estimé porter 20 000 à 25 000 protéines codantes, les gènes. En dessinant ce projet, le consortium souhaitait pouvoir répondre à de sévères critiques concernant des indicateurs de projet tels que les défis technologiques, les standards de qualité des données et la couverture du séquençage[10].

Au cours des trois années suivantes, les scientifiques au Centre Sanger, à l'Institut du Génome de Beijing BGI à Shenzhen et au réseau de séquençage à grande échelle du National Human Genome Research Institute, planifient le séquençage d'un minimum de 1 000 génomes humains. À cause du très grand nombre de données de séquence qui demande à être générées et analysées, il est possible que d'autres participants soient recrutés durant cette période[2].

Presque 10 milliards de bases seront séquencées chaque jour sur la période de deux ans de la phase de production. Ceci fait plus de deux génomes humains tous les 24 heures ; une capacité révolutionnaire. Un défi aux meilleurs experts de la bioinformatique et des statistiques génétiques, la base des séquences comprendra 6 000 milliards de bases ADN, 60 fois plus de données séquence que ce qui a été publié dans les bases de données ADN dans les 25 dernières années[2].

Pour pouvoir déterminer le plan final de tout le projet, trois études furent conçues et mises à exécution dans la première année du projet. L'intention du premier pilote était de génotyper 180 personnes de 3 groupes géographiques majeurs avec une couverture basse (2 passages). Pour l'étude du deuxième pilote, les génomes de deux familles nucléaires (les deux parents et un enfant adulte) allaient être séquencées avec une couverture profonde (20 passages par génome). L'étude du troisième pilote impliquait le séquençage des régions codantes (exons) de 1 000 gènes chez 1 000 personnes avec une couverture profonde (20 passages)[2],[10].

Le projet est estimé devoir probablement coûter plus de 500 millions de dollars si les technologies standards de séquençage ADN sont employées. Cependant, plusieurs nouvelles technologies (exemple Solexa, 454, SOLiD) seront appliquées, abaissant les coûts attendus dans une fourchette de 30 millions à 50 millions de dollars. Le support majeur sera fourni par le Wellcome Trust Sanger Institute, Hinxton, Angleterre; l'Institut Génomique de Beijing, Shenzhen (BGI Shenzhen), Chine; et le NHGRI, une branche du National Institutes of Heath (NIS)[2].

Les données compilées de séquence du génome sont libres d'accès.

Échantillons de génomes humains

Basés sur les buts globaux du projet, les échantillons seront choisis pour fournir une connaissance puissante des populations avec laquelle les études s'y rapportant sur les maladies communes pourront être faites. En outre, les échantillons ne demanderont pas d'y ajouter l'information médicale ou sur le phénotype puisque le catalogue proposé sera une ressource de base sur la diversité humaine[10].

Pour les études pilotes, les échantillons de génomes humains provenant de la collection du HapMap seront séquencés. Il sera utile de se concentrer sur des échantillons qui ont déjà des données additionnelles disponibles (comme les séquences du projet universitaire américain ENCODE, les génotypes connus sur de grandes parties du génome, les séquences fin des fosmides qui sont des cosmides basés sur les plasmides-F, les testeurs de variations structurels, et les agents d'expression des gènes) pour être capable de comparer les résultats avec ceux d'autres projets[10].

En se conformant aux procédures d'éthique les plus complètes, le Projet 1000 utilisera des échantillons venant de donneurs volontaires. Les populations suivantes seront incluses dans l'étude : Yorubas d'Ibadan, Nigeria ; Japonais de Tokyo ; Chinois de Beijing ; résidents de l'Utah avec des ancêtres du nord et l'ouest de l'Europe ; Luhyas de Webuye, Kenya ; Maasai de Kinyawa, Kenya ; Toscans d'Italie ; Péruviens du Pérou ; Indiens Gujarâtî de Houston ; Chinois de Denver ; ancêtres mexicains à Los Angeles et ancêtres africains dans le sud-ouest des États-Unis[2].

Résultats

Résultats en génétique médicale

Résultats en génétique des populations

En 2011, des milliers de marqueurs dans le chromosome Y furent trouvés par des amateurs sur les données brutes de la base du projet 1000 Genomes après leur analyse par des programmes informatiques. Ces découvertes permettent de considérablement développer les arbres des haplogroupes Y, très utiles pour l'histoire des migrations humaines et pour la généalogie génétique. Des nouveaux marqueurs ainsi trouvés sont déjà dans les catalogues des compagnies de tests ADN.

Les publications principales du Projet, portant sur la fin de phase 3, ont été publiées dans Nature (https://www.internationalgenome.org/1000-genomes-project-publications) en :

- “A global reference for human genetic variation” Nature 526 68-74 2015; - “An integrated map of structural variation in 2,504 human genomes” Nature 526 75-81 2015.

Notes et références

  1. The 1000 Genomes Project Consortium, A map of human genome variation from population-scale sequencing, Nature (2010) 467, 1061–1073 (http://www.nature.com/nature/journal/v467/n7319/full/nature09534.html)
  2. a b c d e f et g G Spencer, International Consortium Announces the 1000 Genomes Project, EMBARGOED (2008) http://www.1000genomes.org/files/1000Genomes-NewsRelease.pdf
  3. a et b JC Long, Human Genetic Variation: The mechanisms and results of microevolution, American Anthropological Association (2004)
  4. a et b T Anzai et al., comparative sequencing of human and chimpanzee MHC class I regions unveils insertions/ deletions as the major path to genomic divergence, PNAS (2003) vol. 100 no. 13: 7708–7713
  5. a et b R Redon et al., Global variation in copy number in the human genome, Nature, Volume 444 (2006)
  6. a b et c LB Barreiro et al., Natural selection has driven population differentiation in modern humans, Nature Genetics (2008) published online
  7. a b et c R Nielsen et al., Recent and ongoing selection in the human genome, Nature Reviews, Volume 8 (2007)
  8. a et b EE Harris et al., The molecular signature of selection underlying human adaptations, Yearbook of Physical Anthropology 49: 89-130 (2006)
  9. a et b M Bamshad, Signatures of natural selection in the human genome, Nature Reviews, Volume 4 (2003)
  10. a b c d e et f Meeting Report: A Workshop to Plan a Deep Catalog of Human Genetic Variation, (2007) http://www.1000genomes.org/files/1000Genomes-MeetingReport.pdf

Voir aussi

Liens externes