هذه مقالة غير مراجعة. ينبغي أن يزال هذا القالب بعد أن يراجعهامحرر؛ إذا لزم الأمر فيجب أن توسم المقالة بقوالب الصيانة المناسبة. يمكن أيضاً تقديم طلب لمراجعة المقالة في الصفحة المخصصة لذلك.(ديسمبر 2019)
يستخدم RNA-Seq تسلسل الجيل التالي (NGS) للكشف عن وجود وكمية من الحمض النووي الريبي في عينة بيولوجية في لحظة معينة، وتحليل المتغير الخلوي المستمر.[2][3]
على وجه التحديد، يسهل RNA-Seq القدرة على النظر إلى الجينات البديلة المقسمة، والتعديلات بعد النسخ، والانصهار الجيني، والطفرات / SNPs والتغيرات في التعبير الجيني مع مرور الوقت، أو الاختلافات في التعبير الجيني في مجموعات أو علاجات مختلفة.[4] بالإضافة إلى نسخ mRNA، يمكن أن ينظر RNA-Seq إلى مجموعات مختلفة من الحمض النووي الريبي (RNA) لتشمل إجمالي الحمض النووي الريبي (RNA)، والحمض النووي الريبي (RNA) الصغير، مثل miRNA، الحمض الريبي النووي النقال (tRNA)، وتحديد ملامح الريبوسوم.[5] يمكن أيضًا استخدام RNA-Seq لتحديد حدود exon / intron والتحقق من أو تعديل حدود الجين الموضحة مسبقًا 5 و3. تشمل التطورات الحديثة في RNA-Seq سلسلة الخلية الواحدة وتسلسل الأنسجة الثابتة في الموقع.[6]
قبل RNA-Seq، أجريت دراسات التعبير الجيني مع المصفوفات الدقيقة القائمة على التهجين. تشمل مشاكل المصفوفات الدقيقة القطع الجينية المتقاطعة، التهميش السيئ للجينات منخفضة الوزن وعالية التعبير، والحاجة إلى معرفة التسلسل المسبق.[7] بسبب هذه المشكلات الفنية، انتقلت النصوص إلى الأساليب القائمة على التسلسل. لقد تطورت هذه من تسلسل Sanger في مكتبات Expressed Sequence Tag، إلى الأساليب القائمة على العلامات الكيميائية (على سبيل المثال، التحليل التسلسلي للتعبير الجيني)، وأخيراً إلى التكنولوجيا الحالية، تسلسل الجيل القادم من cDNA (خاصة RNA-Seq).
الأساليب
إعداد متسلسل
الخطوات العامة لإعداد متسلسل DNA (cDNA) التكميلية للتسلسل موضحة أسفل، ولكن غالبًا ما تختلف بين المنصات. [8][3][9]
عزل الحمض النووي الريبي (RNA): يتم عزل الحمض النووي الريبي (RNA) من الأنسجة ويخلط مع (DNase) DNase يقلل من كمية الحمض النووي الجيني. يتم ضبط الكمية المفككة من الحمض النووي الريبي مع هلام والخلاصة التحليل الكهربي لمحتوى الشعيرات الدموية ويستخدم لتعيين عدد سلامة الحمض النووي الريبي للعينة. تؤخذ جودة الحمض النووي الريبي (RNA) والمبلغ الإجمالي لبدء الحمض النووي الريبي (RNA) في الاعتبار أثناء خطوات إعداد وتسلسل وتحليل المكتبة اللاحقة.
اختيار / نضوب الحمض النووي الريبي: لتحليل إشارات الاهتمام، يمكن إما الاحتفاظ بالحمض النووي الريبي المعزول كما هو، مع ترشيح الحمض النووي الريبي مع ذيول متعددة الأقطاب (3) متعددة (poly (A) لتشمل فقط rRNA، المستخلص من الحمض النووي (rRNA)، و / أو تمت تصفيته من أجل الحمض النووي الريبي (RNA) الذي يربط تسلسلات محددة (جدول اختيار ونضج الحمض النووي الريبي، أسفل). الحمض النووي الريبي مع ذيول 3 '(بولي) الناضجة، والمعالجة، والتابعة لتسلسل الترميز. يتم اختيار (Poly A) عن طريق مزج الحمض النووي الريبي (RNA) مع قلة قليلة من القسيمات (T) المرتبطة تساهميًا بالركيزة، الخرز المغناطيسي عادة.[10][11] يتجاهل اختيار (Poly A) الحمض النووي الريبي غير المشفر ويقدم تحيزًا 3 '، [12] والذي يتم تجنبه باستراتيجية نضوب الريبوسوم. تتم إزالة rRNA لأنه يمثل أكثر من 90 ٪ من الحمض النووي الريبي في الخلية، والتي إذا تم الاحتفاظ بها سوف تتخلص من البيانات الأخرى.
تخليق cDNA: يتم نسخ RNA إلى cDNA لأن الحمض النووي أكثر استقرارًا ويسمح بالتضخيم (عن طريق polymerases الحمض النووي) وتقنية تسلسل الحمض النووي أكثر نضجًا. يؤدي التضخيم اللاحق للنسخ العكسي إلى فقد السبل، والتي يمكن تجنبها بالوسم الكيميائي أو تسلسل جزيء واحد. يتم تنفيذ تجزئة واختيار الحجم لتنقية التسلسلات التي هي الطول المناسب لآلة التسلسل. الحمض النووي الريبيrRNA، cDNA, أو كليهما مجزأ مع الإنزيمات، صوتنه، أو البخاخات. يعمل تجزئة الحمض النووي الريبي على تقليل انحياز 5 'من النسخ العكسي العشوائي وتأثير مواقع الربط التمهيدي، مع الجانب الذي ينتهي به الطرفان 5 و3 إلى الحمض النووي أقل كفاءة. يتبع التجزؤ اختيار الحجم، حيث تتم إزالة تسلسلات صغيرة أو تحديد نطاق ضيق من أطوال التسلسل. بسبب ضياع rRNA الصغيرة مثل miRNAs، يتم تحليلها بشكل مستقل. يمكن فهرسة cDNA لكل تجربة مع الباركود hexamer أو octamer، بحيث يمكن تجميع هذه التجارب في مسار واحد لتسلسل متعدد الإرسال.
عند إجراء تسلسل RNA غير miRNA، يتم تعديل إعداد التسلسل. يتم تحديد الحمض النووي الريبي على أساس نطاق الحجم المطلوب. لأهداف الحمض النووي الريبي الصغيرة، مثل miRNA، يتم عزل الحمض النووي الريبي من خلال اختيار الحجم. يمكن إجراء ذلك باستخدام هلام استبعاد الحجم، من خلال حبات مغناطيسية لاختيار الحجم، أو باستخدام مجموعة تم تطويرها تجاريًا. بمجرد عزلها، تتم إضافة الروابط إلى النهاية 3 'و5' ثم تنقيتها. والخطوة الأخيرة هي الجيل cDNA من خلال النسخ العكسي.
تسلسل الحمض النووي الريبي rRNA المباشر
نظرًا لأن تحويل الحمض النووي الريبي إلى الحمض النووي الريبي النووي (cDNA)، فقد ثبت أن عمليات الربط، والتضخيم، والتلاعب بالعينات الأخرى تقدم تحيزات وأدوات أثرية قد تتداخل مع كل من التوصيف الصحيح والتابعات الصحيحة للنصوص الجينية، [13] تم استكشاف تسلسل الحمض النووي الريبي المباشر للجزيء المفرد [13] ، بما في ذلك Helicos (المفلسة)، أوكسفورد نانوبور تكنولوجيز، [14] وغيرها. هذه التكنولوجيا تسلسل جزيئات الحمض النووي الريبي مباشرة بطريقة موازية على نطاق واسع.
تسلسل RNA أحادي الخلية (scRNA-Seq)
الطرق القياسية مثل المصفوفات الدقيقة وتحليل المعيار RNA-Seq يحلل تعبير ال rRNA من مجموعات كبيرة من الخلايا. في مجموعات الخلايا المختلطة، قد تحجب هذه القياسات الفروق الحرجة بين الخلايا الفردية داخل هذه المجموعات.[15][16]
يوفر تسلسل الحمض النووي الريبي أحادي الخلية (scRNA-Seq) ملفات تعريف للخلايا الفردية. على الرغم من أنه لا يمكن الحصول على معلومات كاملة عن كل RNA الذي يعبر عن كل خلية، نظرًا للكمية الضئيلة من المواد المتاحة، يمكن التعرف على أنماط التعبير الجيني من خلال تحليلات تجميع الجينات. هذا يمكن أن يكشف عن وجود أنواع خلايا نادرة داخل مجتمع الخلية والتي ربما لم يسبق رؤيتها من قبل. على سبيل المثال، تم تحديد خلايا متخصصة نادرة في الرئة تدعى الخلايا الأيونية الرئوية التي تعبر عن منظم توصيل غشاء التليف الكيسي في 2018 من قبل مجموعتين تؤديان ال rRna ساق على ظهارة مجرى الرئة.[17][18]
الإجراءات التجريبية
تتضمن بروتوكولات scRNA-Seq الحالية الخطوات التالية: عزل خلية واحدة وRNA، النسخ العكسي (RT)، والتضخيم، وتوليد التسلسل، والتسلسل. طرق مبكرة فصل الخلايا الفردية إلى آبار منفصلة. طرق أكثر حداثة تغلف الخلايا الفردية في قطرات في جهاز ميكروفلويديك، حيث يحدث رد فعل النسخ العكسي، وتحويل الحمض النووي الريبي إلى cDNAكل قطرة تحمل «الباركود» DNA الذي يسمي بشكل فريدcDNA المستمدة من خلية واحدة. بمجرد اكتمال النسخ العكسي، يمكن خلط cDNAمن العديد من الخلايا معًا للتسلسل؛ يتم التعرف على النصوص من خلية معينة بواسطة الرمز الشريطي الفريد.[19][20]
تشمل تحديات scRNA-Seq الحفاظ على الوفرة النسبية الأولية للـ mRNA في الخلية وتحديد النصوص النادرة.[21] تعتبر خطوة النسخ العكسي أمرًا بالغ الأهمية نظرًا لأن كفاءة رد فعل RT تحدد مقدار تحليل الحمض النووي الريبي للخلية الذي سيتم تحليله في نهاية الأمر بواسطة جهاز التسلسل. قد تؤثر قابلية النسخ العكسي واستراتيجيات التحضير المستخدمة على إنتاج cDNA كامل الطول وتوليد مكتبات منحازة نحو نهاية 3 أو 5 'من الجينات.
في خطوة التضخيم، يتم الآن استخدام PCR أو في النسخ المختبرية (IVT) لتضخيم cDNA واحدة من مزايا الأساليب القائمة على PCR هي القدرة على توليد cDNA كامل الطول. ومع ذلك، قد يتم تضخيم كفاءة PCR مختلفة على تسلسلات معينة على سبيل المثال، محتوى GC وهيكل snapback بشكل كبير، مما ينتج مكتبات ذات تغطية غير متساوية. من ناحية أخرى، في حين أن التسلسلات التي تم إنشاؤها بواسطة IVT يمكنها تجنب تحيز التسلسل الناتج عن PCR، فقد يتم نسخ تسلسلات محددة بطريقة غير فعالة، مما يسبب تسلسل المتسلسل أو توليد تسلسلات غير مكتملة.[22][15] تم نشر العديد من بروتوكولات scRNA-Seq: Tang et al. STRT.[23] STRT ، [24] SMART-seq ، [25] CEL-seq ، [26] RAGE-seq ، [27] ، Quartz-seq.[28] و C1-CAGE.[29] من حيث استراتيجيات النسخ العكسي، وتوليف cDNA والتضخيم، وإمكانية استيعاب الباركود الخاصة بالتسلسل مثل UMIs أو القدرة على معالجة العينات المجمعة.[30]
في عام 2017، تم تقديم طريقتين لقياس في وقت واحد مرنا وحيد الخلية وتعبير البروتين من خلال الأجسام المضادة المسمى أليغنوكليوتيد المعروفة باسم REAP-seq ، [31] و CITE-seq.[32]
قدمت scRNA-Seq نظرة ثاقبة كبيرة في تطور الأجنة والكائنات الحية، بما في ذلك دودة Caenorhabditis elegans ، [39] والمستوصف الشمسي التجديدي المتوسطي .[40][41] كانت أول الحيوانات الفقارية التي تم تعيينها بهذه الطريقة هي الزرد[42][43] و Xenopus laevis.[44] في كل حالة، تمت دراسة مراحل متعددة من الجنين، مما يسمح برسم عملية التنمية بأكملها على أساس كل خلية على حدة. [8]لقد أدرك العلم أن هذه التطورات هي " اختراق العام 2018 ".[45]
الاعتبارات التجريبية
يتم مراعاة مجموعة متنوعة من المعلمات عند تصميم وإجراء تجارب RNA-Seq:
نوعية الأنسجة: يختلف التعبير الجيني داخل الأنسجة وفيما بينها، ويقيس RNA-Seq هذا المزيج من أنواع الخلايا. هذا قد يجعل من الصعب عزل الآلية البيولوجية للاهتمام. يمكن استخدام تسلسل خلية واحدة لدراسة كل خلية على حدة، وتخفيف هذه المشكلة.
الاعتماد على الوقت: يتغير تعبير الجينات بمرور الوقت، ولا يأخذ RNA-Seq سوى لقطة. يمكن إجراء تجارب الدورة الزمنية لمراقبة التغييرات في النص الجيني.
التغطية (المعروف أيضًا باسم العمق): يحتوي الحمض النووي الريبي على نفس الطفرات التي لوحظت في الحمض النووي، ويتطلب الكشف تغطية أعمق. مع تغطية عالية بما فيه الكفاية، يمكن استخدام RNA-Seq لتقدير التعبير عن كل أليل. قد يوفر هذا نظرة ثاقبة الظواهر مثل التأثيرات أو التأثيرات التنظيمية. يمكن استقراء عمق التسلسل المطلوب لتطبيقات محددة من تجربة تجريبية.[46]
قطع لتوليد البيانات (تُعرف أيضًا باسم التباين التقني): يمكن أن تؤدي الكواشف (على سبيل المثال، مجموعة إعداد التسلسل) والموظفين المعنيين ونوع جهاز التسلسل على سبيل المثال، Illumina وPacific Biosciences إلى آثار فنية قد يساء تفسيرها على أنها نتائج ذات معنى. كما هو الحال مع أي تجربة علمية، من الحكمة إجراء RNA-Seq في بيئة جيدة التحكم. إذا لم يكن ذلك ممكنًا أو كانت الدراسة عبارة عن تحليل تلوي، فإن الحل الآخر هو اكتشاف القطع الفنية عن طريق استنتاج المتغيرات الكامنة (عادة تحليل المكون الرئيسي أو تحليل العوامل) والتصحيح لاحقًا لهذه المتغيرات.[47]
إدارة البيانات: عادة ما تكون تجربة RNA-Seq في البشر في حدود 1 غيغابايت.[48] هذا الحجم الكبير من البيانات يمكن أن يطرح مشاكل التخزين. أحد الحلول هو ضغط البيانات باستخدام مخططات حسابية متعددة الأغراض (على سبيل المثال، gzip أو مخططات خاصة بالجينوم. هذا الأخير يمكن أن يكون على أساس تسلسل مرجعي أو دي نوفو. الحل الآخر هو إجراء تجارب ميكروأري، والتي قد تكون كافية لإجراء الدراسات التي تعتمد على الفرضيات أو تكرارها على عكس البحوث الاستكشافية.
التحليل
التجمع النسخي
يتم استخدام طريقتين لتعيين تسلسلات القراءة الأولية للميزات الجينومية (أي تجميع النص الجيني):
دي نوفو: هذا النهج لا يحتاج إلى جينوم مرجعي لإعادة بناء النص، ويستخدم عادة إذا كان الجينوم غير معروف، غير مكتمل، أو تم تغييره بشكل كبير مقارنة بالمرجع.[49] تتضمن التحديات عند استخدام عمليات القراءة القصيرة لتجميع de novo 1)) تحديد القراءات التي يجب ضمها معًا في تسلسلات متجاورة contigs)، 2) متانة أخطاء التسلسل وغيرها من الأعمال الفنية، و3 الكفاءة الحسابية. تم نقل الخوارزمية الأساسية المستخدمة لتجميع de novo من الرسوم البيانية المتداخلة، والتي تحدد جميع التداخلات بين الزوجين إلى القراءات، إلى الرسوم البيانية لـ Bru Brunn، والتي تقسم القراءة إلى تسلسلات طولها k وتنهار كل k-mers في جدول تجزئة.[50] تم استخدام الرسوم البيانية المتداخلة مع تسلسل Sanger، لكن لا يتم القياس جيدًا إلى ملايين القراءات التي تم إنشاؤها باستخدام RNA-Seq. أمثلة على المجمعات التي تستخدم الرسوم البيانية دي Bruijn هي Velvet ، [51] Trinity ، Oases ، [52] و Bridger.[53] يمكن للنهاية المزدوجة وتسلسل القراءة الطويلة من نفس العينة أن يخففا من العجز في تسلسل القراءة القصيرة من خلال العمل كقالب أو هيكل عظمي. تشتمل مقاييس تقييم جودة مجموعة de novo على متوسط طول contig وعدد contigs و N50.[54]
دليل الجينوم: تعتمد هذه الطريقة على نفس الأساليب المستخدمة لمحاذاة الحمض النووي، مع التعقيد الإضافي المتمثل في محاذاة القراءات التي تغطي أجزاء غير مستمرة من الجينوم المرجعي.[55] هذه القراءات غير المستمرة هي نتيجة لتسلسل النصوص المقسمة (انظر الشكل). عادة، تحتوي خوارزميات المحاذاة على خطوتين: 1) محاذاة أجزاء قصيرة من القراءة (أي، بداية الجينوم)، و 2) استخدام البرمجة الديناميكية لإيجاد محاذاة مثالية، وأحيانًا بالاقتران مع تعليقات توضيحية معروفة. تشمل أدوات البرمجيات التي تستخدم المحاذاة الموجهة للجينوم Bowtie ، [56] TopHat (الذي يبني على نتائج BowTie لمحاذاة الوصلات الفاصلة)، [57][58] Subread ، [59] STAR ، HISAT2 ، [60] Sailfish ، [61] كاليستو، [62] و GMAP.[63] يمكن قياس جودة التجميع الموجه للجينوم بمقاييس التجميع 1) de novo (على سبيل المثال، N50) و 2) مقارنات بالتسلسلات المعروفة، تقاطع الوصلات، الجينوم، والبروتين باستخدام الدقة ، الاستعادة، أو توليفها (على سبيل المثال، النتيجة F1). [54] بالإضافة إلى ذلك، يمكن إجراء تقييم السيليكو باستخدام قراءات محاكية.[64][65]
ملاحظة على جودة التجميع: الإجماع الحالي هو أن 1) يمكن أن تختلف جودة التجميع تبعًا للمقياس المستخدم، 2) التجميعات التي سجلت جيدًا في أحد الأنواع لا تؤدي بالضرورة أداءً جيدًا في الأنواع الأخرى، و3) قد يؤدي الجمع بين الطرق المختلفة إلى كن الأكثر موثوقية.[66][67]
التعبير الجيني الكمي
يتم التعبير عن التعبير الكمي لدراسة التغيرات الخلوية استجابةً للمنبهات الخارجية، الاختلافات بين الحالات الصحية والمرضية، وغيرها من الأسئلة البحثية. غالبًا ما يستخدم تعبير الجين كبديل لوفرة البروتين، لكن غالبًا ما تكون هذه العناصر غير متكافئة بسبب أحداث ما بعد النسخ مثل تدخل الحمض النووي الريبي وانحلال بوساطة الهراء.[68]
يتم تحديد التعبير عن طريق حساب عدد القراءات التي تم تعيينها لكل موقع في خطوة التجميع transcriptome. يمكن قياس التعبير عن الإكسونات أو الجينات باستخدام contigs أو التعليقات التوضيحية المرجعية. [8] تم التحقق من صحة تعدادات RNA-Seq التي تمت ملاحظتها بقوة ضد التقنيات القديمة، بما في ذلك المصفوفات الدقيقة التعبير وqPCR . [46][69] من الأمثلة على الأدوات التي تحدد التعدادات HTSeq ، [70] FeatureCounts ، [71] Rcount ، [72] maxcounts ، [73] FIXSEQ ، [74] و Cuffquant. ثم يتم تحويل عدد القراءة إلى مقاييس مناسبة لاختبار الفرضيات والانحدارات والتحليلات الأخرى. المعلمات لهذا التحويل هي:
العمق / التغطية المتسلسلة: على الرغم من أن العمق محدد مسبقًا عند إجراء تجارب RNA-Seq متعددة، إلا أنه سيظل متباينًا على نطاق واسع بين التجارب.[75] لذلك، عادةً ما يتم تطبيع إجمالي عدد القراءات التي تم إنشاؤها في تجربة واحدة عن طريق تحويل التعدادات إلى أجزاء أو قراءات أو تعدادات لكل مليون قراءة معيّنة FPM أو RPM أو CPM يشار إلى عمق التسلسل أحيانًا بحجم المكتبة، وعدد جزيئات cDNA الوسيطة في التجربة.
طول الجينات: سيكون للجينات الأطول شظايا / قراءات / تعدادات أكثر من الجينات الأقصر إذا كان تعبير النص الجيني هو نفسه. يتم ضبط هذا عن طريق تقسيم FPM على طول الجين، مما يؤدي إلى شظايا متري لكل كيلوبايت من النص لكل مليون قراءة المعينة (FPKM).[76] عند النظر إلى مجموعات من الجينات عبر العينات، يتم تحويل FPKM إلى نصوص لكل مليون (TPM) عن طريق تقسيم كل FPKM على مجموع FPKMs داخل عينة.[77][78]
مجموع عينة الحمض النووي الريبي: لأن نفس كمية الحمض النووي الريبي المستخرجة من كل عينة، فإن العينات ذات الحمض النووي الريبي الإجمالي أكثر سيكون لها عدد أقل من الحمض النووي الريبي لكل جين. يبدو أن هذه الجينات قد قللت من التعبير، مما أدى إلى إيجابيات كاذبة في التحليلات النهائية.
تباين تعبير كل جين: يتم تصميمه ليتم حسابه على خطأ أخذ العينات (مهم للجينات ذات التعداد المنخفض للقراءة)، ويزيد الطاقة، ويقلل من الإيجابيات الخاطئة. يمكن تقدير التباين كتوزيع طبيعي، أو بواسون، أو سلبي ذو حدين [79][80][81] وغالبًا ما يتحلل إلى تباين تقني وبيولوجي.
الكم المطلق
الكم المطلق للتعبير الجيني غير ممكن في معظم تجارب RNA-Seq، والتي تقيس التعبير بالنسبة لجميع النصوص الجينية. من الممكن عن طريق إجراء RNA-Seq مع spike-ins، عينات من RNA بتركيزات معروفة. بعد التسلسل، يتم استخدام التعدادات المقروءة لتسلسلات الزيادة في تحديد العلاقة بين تعدادات القراءة لكل جين والكميات المطلقة من الأجزاء البيولوجية. [11][82] في أحد الأمثلة، تم استخدام هذه التقنية في أجنة Xenopus المدارية لتحديد حركية النسخ.[83]
التعبير (النسخ) التفاضلي
إن الاستخدام البسيط والأقوى في كثير من الأحيان لـ RNA-Seq هو إيجاد اختلافات في التعبير الجيني بين شرطين أو أكثر (على سبيل المثال، المعالجة مقابل غير المعالجة)؛ وتسمى هذه العملية التعبير التفاضلي. يشار إلى المخرجات بشكل متكرر على أنها جينات معبر عنها تفاضليًا (DEGs) ويمكن أن يتم تنظيم هذه الجينات إما إلى أعلى أو أسفل (أي، أعلى أو أقل في حالة الاهتمام). هناك العديد من الأدوات التي تؤدي تعبيرًا تفاضليًا. يتم تشغيل معظمها في R أو Python أو سطر أوامر Unix . الأدوات الشائعة الاستخدام تشمل DESeq ، [80] edgeR ، [81] و voom + limma ، [79][84] وكلها متوفرة من خلال موصل R / Bioconductor.[85][86] هذه هي الاعتبارات الشائعة عند تنفيذ التعبير التفاضلي:
المدخلات: تشمل مدخلات التعبير التفاضلي (1) مصفوفة تعبير RNA-Seq (جينات M X × عينات) و (2) مصفوفة تصميم تحتوي على ظروف تجريبية لعينات N. تحتوي أبسط مصفوفة التصميم على عمود واحد ، يقابل التسميات للحالة التي يجري اختبارها. يمكن أن تشمل المتغيرات الأخرى (يشار إليها أيضًا بعوامل أو ميزات أو تسميات أو معلمات) تأثيرات الدُفعات والمصنوعات المعروفة وأي بيانات وصفية قد تربك أو تتوسط في التعبير الجيني. بالإضافة إلى المتغيرات المشتركة المعروفة ، يمكن أيضًا تقدير المتغيرات المشتركة غير المعروفة من خلال أساليب التعلم الآلي غير الخاضعة للإشراف بما في ذلك تحليلات المكون الرئيسي والمتغير البديل [87] و PEER.[47] غالبًا ما تستخدم التحليلات المتغيرة المخفية لبيانات RNA-Seq الخاصة بالأنسجة البشرية ، والتي تحتوي عادةً على قطع أثرية إضافية لم يتم التقاطها في البيانات الوصفية (على سبيل المثال ، الوقت الإقفاري ، الاستعانة بمؤسسات متعددة ، السمات السريرية الأساسية ، جمع البيانات عبر العديد من السنوات مع العديد من الموظفين).
الطرق: تستخدم معظم الأدوات إحصائياتالانحدار أو غير البارامترية لتحديد الجينات التي يتم التعبير عنها تفاضليًا ، وتكون إما قائمة على العد (DESeq2 ، limma ، edgeR) أو قائمة على التجميع (عن طريق القياس الكمي بدون محاذاة ، أو الكلب ، [88][89] Cuffdiff ، [88] Ballgown [90]).[91] بعد الانحدار ، تستخدم معظم الأدوات إما معدل الخطأ العائلي (FWER) أو تعديلات قيمة الاكتشاف الخاطئ (FDR) لمراعاة الفرضيات المتعددة (في الدراسات البشرية ، ~ 20000 من جينات ترميز البروتين أو ~ 50000 نموذج حيوي).
المخرجات: يتكون المخرج النموذجي من صفوف تتوافق مع عدد الجينات وثلاثة أعمدة على الأقل، يتغير كل سجل من الجينات (تحويل سجل لنسبة التعبير في الظروف بين، مقياس حجم التأثير)، قيمة p، وp القيمة تعديلها لمقارنات متعددة. يتم تعريف الجينات على أنها ذات معنى من الناحية البيولوجية إذا نجحت في تحديد حجم التأثير (تغيير طية السجل) والأهمية الإحصائية. يجب تحديد هذه القطع بشكل مسبق بشكل مسبق، ولكن طبيعة تجارب RNA-Seq غالبًا ما تكون استكشافية، لذا يصعب التنبؤ بأحجام التأثير والقطع ذات الصلة في وقت مبكر.
مطبات: سبب وجود هذه الأساليب المعقدة هو تجنب عدد لا يحصى من المزالق التي يمكن أن تؤدي إلى أخطاء إحصائية وتفسيرات مضللة. المطبات تشمل زيادة معدلات إيجابية كاذبة (بسبب المقارنات المتعددة)، والتحف إعداد العينات، وعدم تجانس العينة (مثل الخلفيات الوراثية المختلطة)، وعينات مترابطة للغاية، في عداد المفقودين للتصاميم التجريبية متعددة المستويات، والتصميم التجريبي الفقراء. أحد الأخطاء البارزة هو عرض النتائج في Microsoft Excel.[92] على الرغم من أنه مناسب، يقوم Excel تلقائيًا بتحويل بعض أسماء الجينات SEPT1 وDEC1 وMARCH2 إلى تواريخ أو أرقام الفاصلة العائمة.
اختيار الأدوات والقياس: هناك العديد من الجهود التي تقارن نتائج هذه الأدوات، حيث تميل DESeq2 إلى التفوق بشكل معتدل على الطرق الأخرى.[93][94][95][96][97][98] كما هو الحال مع الطرق الأخرى، يتكون القياس من مقارنة مخرجات الأداة مع بعضها البعض ومعاييرgolden المعروف.
تحاليل الدارجة للحصول على قائمة من الجينات المعبر عنها تفاضليًا تأتي في اثنين من النكهات، التحقق من صحة الملاحظات والاستدلال البيولوجي. نظرًا لمخاطر التعبير التفاضلي وRNA-Seq، يتم تكرار الملاحظات المهمة باستخدام (1) طريقة متعامدة في نفس العينات (مثل PCR في الوقت الفعلي) أو (2) تجربة أخرى، مسجلة مسبقًا في بعض الأحيان، في مجموعة جديدة. هذا الأخير يساعد على ضمان التعميم ويمكن متابعته عادةً مع التحليل التلوي لجميع الأفواج المجمعة. الطريقة الأكثر شيوعًا للحصول على فهم بيولوجي عالي المستوى للنتائج هي تحليل التخصيب الجيني، على الرغم من أنه يتم أحيانًا استخدام طرق الجينات المرشحة. يحدد إثراء مجموعة الجينات ما إذا كان التداخل بين مجموعتين من الجينات ذا دلالة إحصائية، وفي هذه الحالة يكون التداخل بين الجينات ومجموعات الجينات التي يتم التعبير عنها تفاضليًا من مسارات / قواعد البيانات المعروفة (مثل، الجينات الأنطولوجية، KEGG، الأنثروبولوجيا البشرية للأنماط) أو من التحليلات التكميلية في التحليل الجيني نفس البيانات (مثل شبكات التعبير المشترك). تشمل الأدوات الشائعة لإثراء مجموعة الجينات واجهات الويب (مثل، ENRICHR، g: profiler) وحزم البرامج. عند تقييم نتائج التخصيب، يكون أحد الأساليب البحثية هو البحث أولاً عن إثراء البيولوجيا المعروفة كتحقق من الصحة ومن ثم توسيع النطاق للبحث عن بيولوجيا جديدة.
الربط البديل
الربط بين الحمض النووي الريبي جزء لا يتجزأ من حقيقيات النوى ويسهم بشكل كبير في تنظيم البروتين وتنوعه، حيث يحدث في أكثر من 90 ٪ من الجينات البشرية.[99] هناك عدة طرق بديلة للتشكيل: تخطي exon وضع الربط الأكثر شيوعًا في البشر ونواة حقيقيات النوى أعلى، exons حصرية متبادلة، ومتبرع بديل أو مواقع متقبلة، والاحتفاظ بالإنترون (وضع الربط الأكثر شيوعًا في النباتات، والفطريات، والبروتوزوا) الموقع (المروج)، والبوليدينيل البديل. أحد أهداف RNA-Seq هو تحديد أحداث الربط البديلة والاختبار إذا كانت تختلف بين الظروف. تسلسل القراءة الطويلة يلتقط النص الكامل، وبالتالي يقلل من العديد من القضايا في تقدير وفرة isoform، مثل تعيين قراءة غامضة. بالنسبة لقراءة RNA-Seq القصيرة، هناك طرق متعددة لاكتشاف الربط البديل الذي يمكن تصنيفه إلى ثلاث مجموعات رئيسية: [100][101][102]
قائم على العد (أيضًا قائم على الأحداث ، الربط التفاضلي): تقدير استبقاء الإكسون. ومن الأمثلة على ذلك DEXSeq ، [103] MATS ، [104] و SeqGSEA.[105]
قائم على Isoform (أيضًا وحدات متعددة القراءة ، التعبير التفاضلي isoform) : تقدير الوفرة isoform أولاً ، ثم الوفرة النسبية بين الشروط. الأمثلة على ذلك هي Cufflinks 2 [106] و DiffSplice.[107]
الختان على أساس Intron: حساب الربط البديل باستخدام تقسيم القراءة. ومن الأمثلة على ذلك MAJIQ [108] و Leafcutter. [102]
يمكن أيضًا استخدام أدوات التعبير الجيني التفاضلي للتعبير التفاضلي isoform إذا تم قياس الأشكال الإسوية مسبقًا مع أدوات أخرى مثل RSEM.[109]
شبكات التعبير (النسخ) المساعد
شبكات التعبير (النسخ) المساعد هي تمثيلات مستمدة من البيانات من الجينات تتصرف بطريقة مماثلة عبر الأنسجة والظروف التجريبية.[110] يكمن هدفهم الرئيسي في توليد الفرضيات وأساليب الذنب من جانب الجمعيات لاستنتاج وظائف الجينات غير المعروفة سابقًا. تم استخدام بيانات RNA-Seq لاستنتاج الجينات المشاركة في مسارات محددة تعتمد على ارتباط بيرسون، سواء في النباتات [111] والثدييات.[112] الميزة الرئيسية لبيانات RNA-Seq في هذا النوع من التحليل عبر منصات ميكروأري هي القدرة على تغطية النص بأكمله، مما يتيح إمكانية كشف تمثيلات أكثر اكتمالا لشبكات تنظيم الجينات. يمكن الكشف عن التنظيم التفريقي لعناصر الشكل العظمية للجنس نفسه واستخدامها للتنبؤ ووظائفها البيولوجية.[113][114] تم بنجاح استخدام تحليل شبكة التعبير المشترك للجينة الموزونة لتحديد الوحدات النمطية للتعبير المشترك والجينات المحورية داخل العضل على بيانات الحمض النووي الريبي. قد تتوافق وحدات التعبير المشترك مع أنواع الخلايا أو المسارات. يمكن تفسير لوحات الوصل الفائقة المتصلة ببعضها البعض كممثلين لوحدة كل منها. إن eigengene هو عبارة عن مجموع مرجح للتعبير عن جميع الجينات في وحدة نمطية. Eigengenes هي علامات حيوية مفيدة (ميزات) للتشخيص والتشخيص.[115] تم اقتراح مناهج تحويل التباين المستقر لتقدير معاملات الارتباط بناءً على بيانات RNA seq.
اكتشاف البديل
يلتقط RNA-Seq تباين الحمض النووي، بما في ذلك متغيرات النوكليوتيدات الفردية والإدخالات الصغيرة / الحذف. والتباين الهيكلي. يشبه استدعاء المتغير في RNA-Seq استدعاء متغير الحمض النووي، وغالبًا ما يستخدم نفس الأدوات (بما في ذلك SAMtools mpileup [116] و GATK HaplotypeCaller [117]) مع تعديلات لحساب الربط. أحد الأبعاد الفريدة لمتغيرات الحمض النووي الريبي هو التعبير الخاص بالأليل (ASE): قد يتم التعبير عن المتغيرات من النمط الفرداني واحد بشكل تفضيلي بسبب التأثيرات التنظيمية بما في ذلك البصمة والتعبير عن موقع السمات الكمية، والمتغيرات النادرة غير المشفرة.[118][119] تتضمن حدود تحديد متغير الحمض النووي الريبي (RNA) أنه يعكس فقط المناطق المعبر عنها (عند البشر، <5٪ من الجينوم) ولديه جودة أقل مقارنة بتسلسل الحمض النووي المباشر.
تحرير الحمض النووي الريبي (التعديلات بعد النسخ)
يمكن أن يساعد وجود تسلسلات مطابقة للجينوم والنسخ للفرد في الكشف عن التعديلات بعد النسخ (تحرير RNA). [3] يتم تحديد حدث تعديل ما بعد النسخ إذا كان نص الجين يحتوي على أليل / متغير لم يلاحظ في البيانات الجينية.
كشف الجينات الانصهار
بسبب التعديلات الهيكلية المختلفة في الجينوم، اكتسبت جينات الاندماج الانتباه بسبب علاقتها بالسرطان.[120] إن قدرة RNA-Seq على تحليل النص الكامل للعينة بطريقة غير متحيزة تجعلها أداة جذابة للعثور على هذه الأنواع من الأحداث الشائعة في السرطان. [4]
وتأتي الفكرة من عملية محاذاة القراءات النصية القصيرة إلى الجينوم المرجعي. ستقع معظم القراءات القصيرة ضمن إكسون واحد كامل، ومن المتوقع أن تحدد مجموعة أصغر ولكن لا تزال كبيرة على تقاطعات إكسون المعروفة. عندئذٍ، سيتم تحليل القراءات القصيرة المتبقية غير المعينة لتحديد ما إذا كانت تتطابق مع تقاطع إكسون حيث يأتي الإكسون من جينات مختلفة. قد يكون هذا دليلًا على حدوث اندماج محتمل، ولكن نظرًا لطول القراءات، فقد يكون هذا مزدحم للغاية. هناك طريقة بديلة تتمثل في استخدام قراءات نهاية الزوج، عندما يقوم عدد كبير يحتمل من القراءات المقترنة بتعيين كل طرف إلى إكسون مختلف، مما يوفر تغطية أفضل لهذه الأحداث ومع ذلك، فإن النتيجة النهائية تتكون من مجموعات متعددة وربما جديدة من الجينات توفر نقطة انطلاق مثالية لمزيد من التحقق من الصحة.
التاريخ
تم تطوير RNA-Seq لأول مرة في منتصف عام 2000 مع ظهور تقنية التسلسل من الجيل التالي.[121] تتضمن المخطوطات الأولى التي استخدمت RNA-Seq حتى بدون استخدام المصطلح تلك الخاصة بخطوط خلايا سرطان البروستاتا[122] (بتاريخ 2006)، و Medicago truncatula[123] (2006)، والذرة[124] (2007)، و Arabidopsis thaliana[125] (2007)، في حين أن مصطلح "RNA-Seq" نفسه ذكر لأول مرة في عام 2008.[126] يزداد عدد المخطوطات التي تشير إلى RNA-Seq في العنوان أو الملخص (الشكل ، الخط الأزرق) بشكل مستمر مع 6754 مخطوطة نشرت في عام 2018 (رابط للبحث في PubMed). تقاطع RNA-Seq والدواء (الشكل ، الخط الذهبي ، رابط البحث في النشرات الطبية PubMed) له مرونة مماثلة. ]
تطبيقات على الطب
RNA-Seq لديه القدرة على تحديد البيولوجيا المرضية الجديدة ، المؤشرات الحيوية الشخصية للمؤشرات السريرية ، استنتاج مسارات قابلة للتخدير ، وجعل التشخيص الوراثي. يمكن تخصيص هذه النتائج بشكل أكبر للمجموعات الفرعية أو حتى للمرضى الأفراد، مما قد يؤدي إلى تسليط الضوء على المزيد من الوقاية الفعالة والتشخيص والعلاج. تملي جدوى هذا النهج جزئياً التكاليف في المال والوقت؛ أحد القيود ذات الصلة هو فريق المتخصصين المطلوب (خبراء المعلومات الحيوية والأطباء / الأطباء والباحثون الأساسيون والفنيون) لتفسير كامل الكم الهائل من البيانات الناتجة عن هذا التحليل.
جهود التسلسل الجيني على نطاق واسع
تم التركيز بشكل كبير على بيانات RNA-Seq بعد أن استخدمت مشاريع موسوعة عناصر الحمض النووي (ENCODE) وأطلس سرطان الجينوم (TCGA) هذا النهج لتوصيف عشرات من خطوط الخلايا [127] وآلاف من عينات الورم الأولية، [128] على التوالي. تهدف ENCODE إلى تحديد المناطق التنظيمية على نطاق الجينوم في مجموعة مختلفة من خطوط الخلايا والبيانات transcriptomic هي الأهم من أجل فهم تأثير المصب لتلك الطبقات التنظيمية الجينية والوراثية. يهدف TCGA، بدلاً من ذلك، إلى جمع وتحليل آلاف من عينات المرضى من 30 نوعًا مختلفًا من الأورام من أجل فهم الآليات الأساسية للتحول والتطور الخبيث. في هذا السياق، توفر بيانات RNA-Seq لقطة فريدة للحالة النصية للمرض وتنظر إلى مجموعة غير متحيزة من النصوص التي تسمح بتحديد النصوص الجديدة ونصوص الاندماج وRNA غير المشفرة التي يمكن اكتشافها باستخدام تقنيات مختلفة.
المراجع
^Shafee, Thomas; Lowe, Rohan (2017). "Eukaryotic and prokaryotic gene structure". WikiJournal of Medicine (بالإنجليزية). 4 (1). DOI:10.15347/wjm/2017.002.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: دوي مجاني غير معلم (link)
^"High-throughput targeted long-read single cell sequencing reveals the clonal and transcriptional landscape of lymphocytes". bioRxiv. 2018. DOI:10.1101/424945.
^"How to design a single-cell RNA-sequencing experiment: pitfalls, challenges and perspectives". Briefings in Bioinformatics: bby007. يناير 2018. DOI:10.1093/bib/bby007. PMID:29394315.
^"Multiplexed quantification of proteins and transcripts in single cells". Nature Biotechnology. ج. 35 ع. 10: 936–939. أكتوبر 2017. DOI:10.1038/nbt.3973. PMID:28854175. {{استشهاد بدورية محكمة}}: الوسيط |إظهار المؤلفين=6 غير صالح (مساعدة)
^"Circulating tumour cell (CTC) counts as intermediate end points in castration-resistant prostate cancer (CRPC): a single-centre experience". Annals of Oncology. ج. 20 ع. 1: 27–33. يناير 2009. DOI:10.1093/annonc/mdn544. PMID:18695026. {{استشهاد بدورية محكمة}}: الوسيط |إظهار المؤلفين=6 غير صالح (مساعدة)
^"Comparative study of de novo assembly and genome-guided assembly strategies for transcriptome reconstruction based on RNA-Seq". Science China Life Sciences. ج. 56 ع. 2: 143–55. فبراير 2013. DOI:10.1007/s11427-013-4442-z. PMID:23393030.
^"Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples". Theory in Biosciences = Theorie in den Biowissenschaften. ج. 131 ع. 4: 281–5. ديسمبر 2012. DOI:10.1007/s12064-012-0162-3. PMID:22872506.
^"SeqGSEA: a Bioconductor package for gene set enrichment analysis of RNA-Seq data integrating differential expression and splicing". Bioinformatics. ج. 30 ع. 12: 1777–9. يونيو 2014. DOI:10.1093/bioinformatics/btu090. PMID:24535097.
^"A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies". Briefings in Bioinformatics. ج. 20 ع. 2: 471–481. مارس 2019. DOI:10.1093/bib/bbx122. PMID:29040385.
^"Comparative study of RNA-seq- and microarray-derived coexpression networks in Arabidopsis thaliana". Bioinformatics. ج. 29 ع. 6: 717–24. مارس 2013. DOI:10.1093/bioinformatics/btt053. PMID:23376351.