Складання геному — процес об'єднання великої кількості коротких фрагментів ДНК (рідів) у одну або кілька довгих послідовностей (контигів і скаффолдів) з метою відновлення послідовностей ДНК хромосом, з яких виникли ці фрагменти в процесі секвенування.
Складання геному є дуже складною обчислювальною задачею, зокрема, ускладненої тим, що геноми часто містять багато однакових повторюваних послідовностей (так звані геномні повтори). Ці повтори можуть мати довжину кілька тисяч нуклеотидів, а також зустрічатися у геномі в тисячі різних місць. Особливо багаті повторами великі геноми рослин і тварин, зокрема й геном людини.
Алгоритмічні підходи
Існує два підходи для складання геномів — заснований на перекритті overlap-layout-consensus (застосовується для довгих фрагментів), а також заснований на графах де Брейна (застосовується для коротких фрагментів)[1][2].
Overlap-Layout-Consensus
При секвенуванніметодом дробовика всі ДНК організму спочатку розрізають на мільйони маленьких фрагментів довжиною до 1000 нуклеотидів. Потім алгоритми складання геному розглядають отримані фрагменти одночасно, знаходячи їх перекриття (overlap), об'єднуючи їх за перекриттями (layout) і виправляючи помилки в об'єднаному рядку (consensus). Ці кроки в процесі складання можуть повторюватися кілька разів.
З розвитком технологій секвенування наступного покоління отримання фрагментів стало на порядок дешевшим, але розмір фрагментів став меншим (до 150 нуклеотидів), а кількість помилок при читанні фрагментів зросла (до 3 %). При складанні таких даних набули поширення методи[3], засновані на графах де Брейна.
* Ліцензії: OS = Open Source; C = комерційна; C/NC-A = комерційна, але безплатна для використання в некомерційних і наукових цілях; в дужках = невідомо, але найпевніше C/NC-A
Примітки
↑Zhenyu Li et al. Comparison of the two major classes of assembly algorithms: overlap–layout–consensus and de-bruijn-graph // Briefings in Functional Genomics : journal. — 2012. — Vol. 11, no. 1 (14 December). — P. 25—37. — DOI:10.1093/bfgp/elr035.