تعلم الفرق الزمني أو التعلم من الفارق الزمني (بالإنجليزية: Temporal difference learning) هو قسمٌ من طرق التعلم بالتعزيز حرة النموذج، تتعلم بواسطة الانطلاق (en) من التقدير الحالي لدالة القيمة [الإنجليزية]. تأخذ هذه الطرق عينات من المحيط، مثل طرق مونت كارلو وتقوم بتحديثات مبنية على التقديرات الحالية، مثل طرق البرمجة الديناميكية.[1]
في حين أن طرق مونت كارلو لا تعدل قيمها سوى عند معرفة النتيجة النهائية، تعدل طرق تعلم الفرق الزمني التوقعات لتطابق توقعات لاحقة، أكثر دقة حول المستقبل وذلك قبل معرفة النتيجة النهائية.[2] هذه الهيئة من البدء [الإنجليزية] موضحة في المثال التالي:
افترض أنك تريد توقع الجو ليوم السبت، وتملك نموذجا ما يقوم بتوقع الجو يوم السبت، بالأخذ في الحسبان الجو في كل يوم من أيام الأسبوع. في الحالة القياسية، ستنتظر حتى يوم السبت ثم تعدل جميع نماذجك. لكن -على سبيل المثال- حين يحل يوم الجمعة يُفترض أن تكون لديك فكرة جيدة كيف سيكون الجو يوم السبت، ومنه تكون قادرا على تغيير نموذج يوم السبت قبل حلوله.[2]
طرق التعلم بالفارق الزمني لها علاقة بنموذج الفارق الزمني الذي تتعلم به الحيوانات.[3][4][5][6][7]
مراجع