AlphaZero — це комп'ютерна програма, розроблена компанією DeepMind, яка використовує узагальнений підхід AlphaGo Zero[en]. 5 грудня 2017 року колектив DeepMind випустив препринтне введення AlphaZero, яке впродовж 24 годин досягнуло надлюдського рівня гри в шахи, Сьоґі, і ґо, перемігши чемпіонів світу серед програм, Stockfish, Elmo і 3-денний варіант AlphaGo Zero в кожному випадку, використовуючи краще комп'ютерне обладнання відносно своїх опонентів.[1][2] AlphaZero переміг Stockfish 8 (рушій грав без доступу до дебютних баз та ендшпільних таблиць) граючи з кращим комп'ютерним обладнанням виділеним для AlphaZero.[3][4]
Стосунок до AlphaGo Zero
AlphaZero (AZ) — це більш узагальнений варіант алгоритму AlphaGo Zero (AGZ), який крім ґо вміє також грати в Сьоґі і шахи. Відмінності між AZ і AGZ полягають у тому, що:
AGZ має жорстко задані правила для встановленого пошуку гіперпараметрів.
Нейронні мережі тепер оновлюються постійно.
Ґо (на відміну від шахів) симетрична за певних відбиттів і обертань; AGZ був запрограмований, щоб скористатися цими симетріями, AZ — ні.
Партія в шахи (на відміну від ґо) може закінчитися внічию, тому AZ може враховувати можливість нічийного результату гри.
AlphaZero проти Stockfish і Elmo
Розглядаючи пошук за допомогою дерева пошуку Монте-Карло, AlphaZero аналізує лише 80,000 позицій на секунду в шахах і 40 000 в сьогах, порівняно з 70 млн для Stockfish і 35 мільйонів для Elmo. AlphaZero компенсує низьку кількість оцінок використанням своїх глибоких нейронних мереж, зосереджуючись набагато більш вибірково на найбільш перспективних варіантах.
Результати
Шахи
У шахових партіях AlphaZero проти Stockfish кожна програма мала по одній хвилині часу на хід. AlphaZero мала краще комп'ютерне обладнання відносно Stockfish. Зі 100 ігор з нормального початкового положення AlphaZero виграв 25 партій білими, виграв 3 чорними і звів унічию решту 72.[5] У серії з дванадцяти 100-ігрових матчів проти Stockfish починаючи з популярних дебютів, AlphaZero виграв 290, звів унічию 886 і програв 24.[джерело?] Результати турнірів не свідчать про те, що AlphaZero — це покращений шаховий рушій, адже алгоритм AlphaZero мав краще комп'ютерне обладнання.
Критика
Деякі гросмейстери, такі як Хікару Накамура і творець Комодо Ларрі Кауфман, підкреслили, що силу AlphaZero не треба перебільшувати, стверджуючи, що матч мав би інакший результат, якби програма мала доступ до дебютних баз (оскільки Stockfish був оптимізований під цей сценарій).[6]
Сьоги
У сто іграх у сьоги проти Elmo, AlphaZero виграв дев'яносто разів, вісім разів програв і дві партії завершилися внічию.
Критика
Спільнота програмістів комп'ютерної гри в сьоги не повністю задоволена умовами підбору програмного забезпечення для рушія AlphaZero і рушія гри в сьоги Elmo.[7][неавторитетне джерело]
Го
Після 8 годин самостійного навчання гри в го, у матчах проти попередньої версії AlphaZero, AlphaZero виграв шістдесят ігор і програв сорок.
Реакція
Газети вийшли з заголовками, що навчання шахів зайняло лише чотири години: «це було зроблено за час трохи більший, ніж проміжок між сніданком і обідом.»[8]Wired розкрутили AlphaZero як «перший штучний інтелект, який є чемпіоном з багатьох настільних ігор».[9] Експерт зі штучного інтелекту Джоанна Брайсон зазначила, що «спритність Google до хорошої реклами» ставить його в сильну позицію проти суперників. «Мова йде не лише про те, щоб найняти найкращих програмістів. Це також дуже політична річ, оскільки вона допомагає Google стояти на найсильніших можливих позиціях під час переговорів з урядами і регуляторами, які контролюють сектор штучного інтелекту».
«Мені завжди було цікаво, як це буде, коли вищі істоти приземляться на землю і покажуть нам, як вони грають в шахи», заявив данський гросмейстерПітер Гайне Нільсен в інтерв'ю Бі-бі-сі, «тепер я знаю». Норвезький гросмейстер Йон Людвіг Гаммер охарактеризував AlphaZero як «божевільні атакуючі шахи» з глибокою позиційною грою. колишній чемпіон світуГаррі Каспаров сказав: «це чудове досягнення, навіть попри те, що ми вже чекали на нього після AlphaGo.»[10]
↑David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis (5 грудня 2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv:1712.01815 [cs.AI]. {{cite arXiv}}: Cite використовує застарілий параметр |authors= (довідка)
↑Архівована копія. Архів оригіналу за 8 грудня 2017. Процитовано 8 грудня 2017.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)