Вони відрізняються від ГП (які часто використовують в тій же ролі) тим, що не мають жодних вузлів фіксованого призначення[en] для графіки, й загалом фокусуються на арифметиці низької розрядності.
Історія
ЦПкомп'ютерних систем часто доповнюють прискорювачами особливого призначення для напружених задач, у першу чергу графіки, але також і звуку, відео тощо. З часом з'явилися різні прискорювачі, які були застосовними для робочих навантажень ШІ.
Ранні спроби
Ранніми роками як прискорювачі нейронних мереж, наприклад, для прискорення програмного забезпечення оптичного розпізнавання символів, використовувалися процесори цифрової обробки сигналів (такі як AT&T DSP32C),[2] і були спроби створення паралельних систем із високою пропускною здатністю для робочих станцій (наприклад, TetraSpert у 1990-х роках, яка була паралельним векторним процесором з нерухомою комою[3]), спрямованих на різні застосування, включно з моделюванням нейронних мереж.[4] ANNA була КМОН-прискорювачем нейронних мереж, розробленим Яном ЛеКуном.[5] Була й інша спроба побудувати нейромережеву робочу станцію, яка називалася Synapse-1[6] (не слід плутати з поточним проектом IBMSyNAPSE[en]).
Різнорідні обчислення
Архітектури, такі як мікропроцесор Cell (у свою чергу натхнений векторними вузлами PS2, один з яких було тісніше прив'язано до ЦП для роботи загального призначення), продемонстрували ознаки, які істотно перекриваються з ШІ-прискорювачами — в їхній підтримці упакованої арифметики низької точності, архітектурі потоку інформації[en], та наданні «пропускній здатності» вищого пріоритету, ніж затримці й «розгалужувально-цілочисленому» кодові. Це був крок у бік різнорідних обчислень, з рядом орієнтованих на пропускну спроможність прискорювачів, призначених допомагати ЦП з областю напружених задач: моделювання фізики, ШІ, кодування/декодування відео, та деяких графічних задач за межами його споріднених ГП.
Фізичний процесор був ще одним прикладом спроби заповнити прогалину між ЦП та ГП в апаратному забезпеченні ПК, проте фізика схильна вимагати точності 32 біт і вище, в той час як набагато нижча точність може бути кращим компромісом для ШІ.[7]
ЦП й самі набули все ширших вузлів SIMD (рухомі робочим навантаженням відео та ігор) та збільшили кількість ядер у спробі усунути потребу в іншому прискорювачеві, а також для прискорення прикладного коду. А вони мають тенденцію підтримувати упаковані типи даних низької точності.[8]
Схід ГПЗП
Після появи новаторського програмного забезпечення, яке використовувало вершинні та фрагментні шейдери для обчислень загального призначення через ППІ рендерингу[en] шляхом зберігання неграфічних даних у вершинних буферах та картах текстур (включно з реалізаціями згорткових нейронних мереж для оптичного розпізнавання символів[9]),[10] постачальники графічних процесорів побачили цю можливість, і узагальнили свої шейдерні конвеєри з особливою підтримкою для ГПЗП, здебільшого будучи вмотивованими вимогами фізики відеоігор, але також і з прицілом на наукові обчислення[en].[11]
Таким чином, станом на 2016 рік ГП є популярними для роботи ШІ, і вони продовжують розвиватися в напрямку полегшення глибокого навчання, як для тренування,[14] так і для отримання висновків у пристроях на кшталт самокерованих автівок.[15] — і отримання додаткової з'єднувальної спроможності для того типу робочих навантажень потоку інформації[en], від якого отримує переваги ШІ (наприклад, NVidia NVLink[en]).[16]
Застосування ПКВМ
Microsoft використовувала мікросхеми ПКВМ для прискорення отримання висновків.[17][18] Це спонукало Intel купити компанію Altera з метою включення ПКВМ до складу серверних ЦП, які стали би здатними до прискорення ШІ, а також і до інших задач.[джерело?]
Мотивація за новий процесор
Хоча ГП й працюють набагато краще за ЦП для цих задач, за допомогою специфічнішої конструкції все ще можна отримати порядку десятикратного приросту ефективності.[19]
Дослідники ШІ часто знаходять мінімальними втрати точності при зниженні до 16 або навіть 8 біт,[7] що наводить на думку, що більший об'єм арифметики нижчої точності є кращим використанням тієї ж пропускної спроможності. Деякі дослідники навіть пробували застосовувати 1-бітову точність (тобто, ставити акцент в задачах бачення виключно на просторовій інформації).[20] Розробка IBM є радикальнішою, обходячись взагалі без скалярних значень, і накопичуючи хроновані імпульси для представлення активацій стохастично, вимагаючи перетворення традиційних представлень.[21]
Термінологія
Станом на 2016 рік ця галузь усе ще перебуває в русі, й постачальники просувають свій власний ринковий термін для того, що вкладається в поняття «ШІ-прискорювач», в надії, що їхня розробка та ППІ домінуватимуть. Консенсусу немає ані в межах між цими пристроями, ані в точній формі, якої вони набудуть, проте кілька прикладів явно прагнуть заповнити цей новий простір, із неабияким перекриттям у потенційних можливостях.
В минулому, коли виникли споживацькі графічні прискорювачі, промисловість у кінцевому підсумку прийняла самостійно призначений термін компанії NVidia, англ.GPU (ГП),[22] як узагальнювальний іменник для «графічних прискорювачів», які набували різних форм, перш ніж зупинитися на загальному конвеєрі, який реалізує модель, представлену Direct3D.
Уповільнення закону Мура
Станом на 2016 рік, уповільнення (і, можливо, неминучий кінець) закону Мура[23] змушує декого пропонувати перефокусуваня зусиль галузі на розробку кремнію під застосування,[24] тоді як у минулому мікросхеми загального призначення все більшої потужності використовувалися для різноманітних застосувань за допомогою програмного забезпечення. За такого сценарію диверсифікація спеціалізованих ШІ-прискорювачів має більше сенсу, ніж продовження розтягування ГП та ЦП.
Майбутнє
Проте ще належить з'ясувати, чи буде в кінцевому підсумку форма ШІ-прискорювача докорінно новим пристроєм, як TrueNorth, чи процесором ще загальнішого призначення, який просто робиться оптимізованим для правильного поєднання точності й потоку інформації.[4] На обрії є деякі навіть ще екзотичніші підходи, наприклад, застосування мемристорів, спроби застосування мемристорів як синапсів.
SpiNNaker[en], надбагатоядерна розробка, яка поєднує ядра традиційної архітектури ARM з вдосконаленою мережною структурою, спеціалізованою для моделювання великої нейронної мережі.
TrueNorth, найнезвичніший приклад, надбагатоядерна розробка на основі імпульсних нейронів, а не традиційної арифметики. Частота імпульсів представляє інтенсивність сигналу. Станом на 2016 рік серед дослідників ШІ немає консенсусу, чи є це правильним шляхом для просування,[29] але деякі результати є багатообіцяючими, з продемонстрованою великою економією енергії для задач бачення.[30]
Zeroth NPU[en], розробка Qualcom, спрямована безпосередньо на привнесення можливостей розпізнавання мовлення та зображень до мобільних пристроїв.
Eyeriss, розробка, явно спрямована на згорткові нейронні мережі, із застосуванням блокнотної пам'яті та мережевої архітектури в межах кристалу.
Nvidia DGX-1[en] ґрунтується на технології ГП, хоча використання декількох процесорів, які формують тканину через NVLink, спеціалізує його архітектуру пам'яті[en] особливо слушним для глибокого навчання чином.
Компанія Cerebras розробила та виготовляє ШІ-прискорювач CS-1, який побудований на мікросхемі площею 46 255 мм², має 1,2 трильйони транзисторів, 400 тисяч ядер та 18 ГБ оперативної пам'яті. Наступна версія, побудована із використанням 7-нм технологічного процесу, матиме 40 ГБ пам'яті та 850 тисяч мікропроцесорних ядер[33].
Apple A11 Bionic — перший процесор Apple, де з'явився ШІ-прискорювач Neural Engine (випустили у 2017)
↑ абThe End of General Purpose Computers (Not). Архів оригіналу за 10 січня 2018. Процитовано 11 липня 2016. (англ.) Ця презентація охоплює минулі спроби прискорювачів нейронних мереж, відзначає схожість із сучасною процесорною системою SLI[en]GPGPU, і стверджує, що векторні прискорювачі загального призначення є шляхом вперед (по відношенню до проекту RISC-V hwacha. Стверджує, що НМ є просто щільними та розрідженими матрицями, одним із рекурентних алгоритмів)
↑Ян ЛеКун про IBM TrueNorth. Архів оригіналу за 5 липня 2015. Процитовано 11 липня 2016. (англ.) стверджує, що нейрони з потенціалами дії ніколи не дають результатів передової якості, і що точність 8-16 біт є оптимальною, просуває конкурентну розробку «neuflow»
↑IBM cracks open new era of neuromorphic computing. Архів оригіналу за 9 липня 2016. Процитовано 11 липня 2016. TrueNorth is incredibly efficient: The chip consumes just 72 milliwatts at max load, which equates to around 400 billion synaptic operations per second per watt — or about 176,000 times more efficient than a modern CPU running the same brain-like workload, or 769 times more efficient than other state-of-the-art neuromorphic approaches(англ.)
Дані у статті наведені станом на 2016 рік. Ви можете допомогти, оновивши інформацію у статті. Можливо, сторінка обговорення містить зауваження щодо потрібних змін.(грудень 2020)
В іншому мовному розділі є повніша стаття AI accelerator(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою перекладу з англійської. (грудень 2020)
Перекладач повинен розуміти, що відповідальність за кінцевий вміст статті у Вікіпедії несе саме автор редагувань. Онлайн-переклад надається лише як корисний інструмент перегляду вмісту зрозумілою мовою. Не використовуйте невичитаний і невідкоригований машинний переклад у статтях української Вікіпедії!
Машинний переклад Google є корисною відправною точкою для перекладу, але перекладачам необхідно виправляти помилки та підтверджувати точність перекладу, а не просто скопіювати машинний переклад до української Вікіпедії.
Не перекладайте текст, який видається недостовірним або неякісним. Якщо можливо, перевірте текст за посиланнями, поданими в іншомовній статті.