Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».
La GenBank est une base de données de la séquences d'ADN, comprenant toutes les séquences de nucléotides publiquement disponibles et leur traduction en protéines. Cette base de données américaine « Nucleotide », en libre accès, a été créée au Centre national pour l'information biotechnologique (NCBI) dans le cadre de la collaboration internationale sur le séquençage des nucléotides (INSDC selon le sigle anglais). La GenBank et ses collaborateurs reçoivent des séquences produites dans des laboratoires du monde entier à partir de plus de 100 000 organismes différents. La GenBank continue de grossir avec une vitesse exponentielle, doublant de taille tous les dix mois. La version 155, datée d'août 2006, contenait plus de 65 milliards de bases de nucléotides dans plus de 61 millions de séquences. La GenBank se construit soit par des dépôts directs en provenance de laboratoires, soit des dépôts en masse des centres de séquençage à grande échelle.
Les dépôts directs à la GenBank se font par l'intermédiaire de BankIt, qui est un formulaire Internet, ou par le programme de dépôt autonome, Sequin. À la réception du dépôt d'une séquence, l'équipe de la GenBank attribue un numéro d'ordre à la séquence et réalise les contrôles d'assurance qualité. Les dépôts sont ensuite inscrits dans la base de données publique, dont on peut consulter les entrées par Entrez ou les télécharger par FTP. Les dépôts en masse de données de marqueurs de séquences exprimées, Sequence Tagged Site (STS), Genome Survey Sequence (GSS) et High-Throughput Genome Sequence (HTGS) sont généralement transmis par les centres de séquençage à grande échelle. Les dépôts de groupe directs à la GenBank traitent également des séquences complètes de génomes microbiens.
Histoire
Walter Goad du Theoretical Biology and Biophysics Group au Laboratoire national de Los Alamos (LANL) a créé avec d'autres, dans les années 1970, la banque de gènes de Los Alamos, qui culmina en 1982 avec la création de la banque de gènes publique fondée par l'Institut national de la Santé. Le LANL collabora au projet GenBank avec les sociétés Bolt, Beranek et Newman, et à la fin de l'année 1983 plus de 2000 séquences y avait été enregistrées.
Au milieu des années 1980, la société Intelligenetics bioinformatics de l'université Stanford assura la direction du projet GenBank. Étant l'un des premiers projets de communauté bio-informatique sur Internet, le projet GenBank lança des forums BIOSCI/Bionet pour promouvoir les communications en libre accès entre biologistes. De 1989 à 1992, le projet GenBank transita par le Centre national pour l'information biotechnologique nouvellement créé.