تعلم الآلة(بالإنجليزية: Machine learning)، هو مجال فرعي من علم الحاسب الذي يشمل على تطوير خوارزميات تعلم كيفية إصدار التوقعات استنادا إلى البيانات، يحتوي على عدد من التطبيقات الناشئة في مجال المعلوماتية الحيوية. المعلوماتية الحيوية تتعامل مع طرق حسابية ورياضية النهج من أجل فهم ومعالجة البيانات البيولوجية.[1]
قبل ظهور خوارزميات تعلم الآلة، كان لابد من برمجة خوارزميات المعلوماتية الحيوية بشكل صريح باليد، والذي ثبت لمشاكل مثل تنبؤ بالبنية البروتينية انه صعب للغاية.[2] تقنيات تعلم الآلة مثل التعلم العميق يمكن الخوارزمية من استخدام تعلم الميزة التلقائي مما يعني أنه استنادا إلى البيانات وحدها، الخوارزمية يمكن أن تتعلم كيفية الجمع بين عدة ميزات من البيانات المدخلة إلى مجموعة من الميزات أكثر تجريدا والتي يمكن من خلالها إجراء مزيد من التعلم. تسمح طريقة تعلم الأنماط المتعددة الطبقات في البيانات المدخلة لهذه النظم لإصدار تنبؤات معقدة جداُ عندما تدرب على مجموعات كبيرة من البيانات. في السنوات الأخيرة، ارتفع حجم وعدد مجموعات البيانات البيولوجية المتاحة، مما مكن الباحثين في مجال المعلوماتية الحيوية من الاستفادة من أنظمة تعلم الآلة هذه. تم تطبيق تعلم الآلة على ستة مجالات فرعية رئيسية للمعلوماتية الحيوية: الجينوم، بروتيوميات، نسق مايكروي، نظم علم الأحياء، تطور، والتنقيب في النصوص.[3]
التطبيقات
علم الجينوم
ينطوي علم الجينوم على دراسة الجينوم، التسلسل الكامل للحمض النووي، للكائنات الحية. في حين أن بيانات التسلسل الجينومي كانت متفرقة تاريخياً بسبب الصعوبة التقنية في تسلسل قطعة من الحمض النووي، فإن عدد التسلسلات المتاحة يتزايد بشكل تصاعدي.[4] ومع ذلك، في حين أن البيانات الخام أصبحت متاحة وسهلة المنال بشكل متزايد، إلا أن التفسيرالبيولوجي لهذه البيانات يحدث بوتيرة أبطأ بكثير.[5] لذلك، هنالك حاجة متزايدة لتطوير أنظمة تعلم الآلة التي يمكنها بشكل تلقائي تحديد موقع جينات ترميزالبروتين في تسلسل حمض نووي معين. هذه مشكلة في علم الأحياء الحسابي المعروف باسم التنبؤ الجيني.
عادة ما يتم التنفيذ الآلي الجيني من خلال مزيج من ما يعرف باسم عمليات البحث الخارجية والداخلية.[5] بالنسبة إلى البحث الخارجي، يتم تمرير تسلسل الحمض النووي المدخل عبر قاعدة بيانات كبيرة من التسلسلات التي تم اكتشافها جيناتها سابقًا وتعليم موقعها. يمكن تحديد عدد من جينات التسلسل من خلال تحديد أي سلاسل من القواعد ضمن التسلسل تتطابق مع تسلسلات جينية معروفة. ولكن نظراً لحدود حجم قاعدة البيانات للتسلسلات الجينية المعروفة، لا يمكن تحديد جميع الجينات في تسلسل معين من خلال التشابه فقط. لذلك، هناك حاجة إلى بحث داخلي حيث يحاول برنامج التنبؤ الجيني تحديد الجينات المتبقية من تسلسل الحمض النووي وحده.
كما تم استخدام تعلم الآلة لمشكلة تراصف السلسلة المتعدد والتي تنطوي على محاذاة العديد من تسلسل الحمض النووي أو الأحماض الأمينية من أجل تحديد مناطق التشابه التي يمكن أن تشير إلى تاريخ تطوري مشترك.
ويمكن أيضًا استخدامه لاكتشاف وتصور إعادة ترتيب الجينوم.[6]