У той час як методи Монте-Карло змінюють свої оцінки лише після того, як відомий кінцевий результат, методи ЧР коригують прогноз, підлаштовуючись під новіші більш точні прогнози до того, як остаточний результат стане відомим.[2] Це є формою бутстрепу, як показано на такому прикладі:
«Припустимо, ви хочете передбачити погоду на суботу, і у вас є модель, яка передбачає погоду в суботу, враховуючи погоду кожного дня тижня. У стандартному випадку потрібно почекати до суботи, а потім налаштувати всі свої моделі. Однак, коли, наприклад, вже настала п'ятниця, то ви повинні мати досить добре уявлення про погоду в суботу — і таким чином мати можливість змінити суботню модель до настання суботи».[2]
Табличний TD(0) метод є одним із найпростіших методів ЧР. Це окремий випадок більш загальних методів стохастичної апроксимації. Він знаходить наближення функції цінності станів скінченного Марковського процесу вирішування (МПВ) зі стратегією . Позначимо функцію цінності стану МПВ зі станами , винагородами , коефіцієнтом знецінювання[8] та стратегією як :
Таким чином є неупередженою оцінкою . На основі цього спостереження можна побудувати наступний алгоритм оцінки .
Алгоритм починається з випадкового заповнення таблиці для кожного стану МПВ. Темп навчання обирається позитивним.
Потім ми багаторазово оцінюємо стратегію , отримуємо винагороду і оновлюємо функцію цінностей для попереднього стану за допомогою такої формули:[9]
де і попередній і поточний стани. Значення відоме як цільове значення ЧР.
TD-Lambda
TD-Lambda — це алгоритм навчання, винайдений Річардом С. Саттоном на основі попередніх робіт Артура Семюеля про метод часових різниць.[1] Цей алгоритм став відомим завдяки тому, що Джеральд Тезауро застосував його для створення TD-нард, програми, яка навчилася грати в нарди на рівні професіональних гравців-людей.[10]
Параметр лямбда () — це коефіцієнт загасання, він знаходиться в межах . Більші значення цього параметру призводять до довготривалих слідів; тобто більша частка винагороди може бути додана до віддалених станів і дій, при великих . Тоді, як при отримуємо алгоритм навчання з підкріпленням Монте-Карло.
Метод ЧР в нейронауці
Алгоритм часових різниць також отримав увагу в області нейробіології. Науковці виявили, що швидкість спрацьовування дофаміновихнейронів у вентральній області покришки і чорній речовині, схоже, імітує функцію помилки в алгоритмі.[3][4][5][6][7] Функція повертає різницю між оціненою винагородою за будь-який даний стан або часовий крок і фактично отриманою винагородою. Чим більша функція помилки, тим більша різниця між очікуваною та фактичною винагородою. Якщо поєднати це зі стимулом, який точно відображає майбутню винагороду, то помилку можна використовувати, щоб отримати зв'язок між стимулом і майбутньою винагородою.
За спостереженнями, клітини дофаміну поводяться схожим чином. В одному з експериментів замірювання дофамінових клітин проводили під час навчання мавпи асоціюванню стимулів з винагородою в вигляді соку.[11] Спочатку клітини дофаміну збільшували швидкість спрацьовування, якщо мавпі давали сік, вказуючи на різницю в очікуваних і фактичних винагородах. З часом це збільшення віддачі поширилося на найраніший стимул, що стабільно призводив до винагороди. Після того, як мавпа була повністю навчена, швидкість віддачі не збільшувалась після надання очікуваної нагороди. Згодом активація дофамінових клітин сповільнилася нижче нормальної активації, коли очікувана винагорода не була отримана. Це схоже на те, як функція помилки в ЧР навчанні використовується для навчання з підкріпленням.
Потенційний зв'язок між цією моделлю та неврологічною функцією ініціював дослідження, в яких намагалися пояснити численні аспекти поведінкових досліджень за допомогою часових різниць.[12] Його також використовували для вивчення таких розладів, як шизофренія або наслідків фармакологічного регулювання дофаміну на навчання.[13]
↑ абMontague, P. R.; Sejnowski, T. J. (1994). The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms. Learning & Memory. 1 (1): 1—33. ISSN1072-0502. PMID10467583.
↑Dayan, P. (2001). Motivated reinforcement learning(PDF). Advances in Neural Information Processing Systems. MIT Press. 14: 11—18. Архів оригіналу(PDF) за 25 травня 2012. Процитовано 2 грудня 2021.
↑Smith, A., Li, M., Becker, S. and Kapur, S. (2006). Dopamine, prediction error, and associative learning: a model-based account. Network: Computation in Neural Systems. 17 (1): 61—84. doi:10.1080/09548980500361624. PMID16613795.