Існує багато типів штучних нейронних мереж (ШНМ, англ.artificial neural networks, ANN).
Штучні нейронні мережі — це обчислювальні моделі[en], натхнені біологічними нейронними мережами, й які використовують, щоби наближуватифункції, зазвичай невідомі. Зокрема, їх надихає поведінка нейронів та електричних сигналів, які вони передають між входом (наприклад, від очей або нервових закінчень у руці), обробкою, та виходом із мозку (наприклад, реакцією на світло, дотик або тепло). Спосіб забезпечення нейронами семантичного зв'язку є областю поточних досліджень.[1][2][3][4] Більшість штучних нейронних мереж лише дещо схожі на свої складніші біологічні аналоги, але вони дуже ефективні у виконанні поставлених завдань (наприклад, класифікування чи сегментування).
Нейронні мережі можуть бути апаратними (нейрони подано фізичними складовими) та програмними[en] (комп'ютерні моделі), й можуть використовувати різноманітні топології та алгоритми навчання.
Нейронна мережа прямого поширення (англ.feedforward neural network) була першим і найпростішим типом. У цій мережі інформація рухається лише від шару входу безпосередньо крізь будь-які приховані шари до шару виходу, без циклів/петель. Мережі прямого поширення можливо будувати за допомогою різних типів вузлів, таких як бінарні нейрони Маккаллоха — Піттса, найпростішим з яких є перцептрон. Неперервні нейрони, часто з сигмоїдною передавальною функцією, використовують у контексті зворотного поширення.
Метод групового урахування аргументів (МГУА, англ.Group Method of Data Handling, GMDH)[5] має повністю автоматичну структурну та параметричну оптимізацію моделі. Передавальними функціями вузлів є поліноми Колмогорова — Габора, які допускають додавання та множення. Він використовує глибокий багатошаровий перцептрон із вісьмома шарами.[6] Це мережа керованого навчання, яка зростає шар за шаром, де кожен шар тренується за допомогою регресійного аналізу. Непотрібні елементи виявляються за допомогою затверджувального набору й відсікаються за допомогою регуляризації. Розмір та глибина отримуваної мережі залежать від поставленого завдання.[7]
Імовірнісна нейронна мережа (ІНМ, англ.PNN) — це чотирирівнева нейронна мережа прямого поширення. Шари: входу, приховані образів та підсумовування, та виходу. В алгоритмі ІНМ батьківську функцію густини ймовірності (ФГІ, англ.PDF) кожного класу наближують вікном Парцена та непараметричною функцією. Потім, використовуючи ФГІ кожного класу, оцінюють класову ймовірність нового входу й використовують правило Баєса, щоби віднести його до класу з найвищою апостеріорною ймовірністю.[13] Її отримали з баєсової мережі[14] та статистичного алгоритму під назвою ядровий фішерів розділювальний аналіз[en].[15] Її використовують для класифікування та розпізнавання образів.
Нейронна мережа з часовою затримкою (англ.time delay neural network, TDNN) — це архітектура прямого поширення для послідовних даних, яка розпізнає ознаки незалежно від положення в послідовності. Щоби досягти інваріантності щодо зсуву в часі, до даних входу додають затримки, щоби кілька точок даних (точок у часі) аналізувалися разом.
Зазвичай вона є частиною більшої системи розпізнавання образів. Її втілювали за допомогою мережі перцептрона, вагові коефіцієнти з'єднань якої було треновано зворотним поширенням (керованим навчанням).[16]
Згорткова нейронна мережа (ЗНМ, англ.CNN, ConvNet, або зсувоінваріанта чи просторовоінваріантна, англ.shift invariant, space invariant) — це клас глибоких мереж, складених з одного або кількох згорткових шарів, із повноз'єднаними шарами (що відповідають шарам типових ШНМ) нагорі.[17][18] Вона використовує зв'язані ваги та шари агрегування. Зокрема, максимізаційного агрегування (англ.max-pooling).[19] Її часто структурують за допомогою згорткової архітектури Фукусіми.[20] Вони є видозмінами багатошарових перцептронів, які використовують мінімальну попередню обробку.[21] Ця архітектура дозволяє ЗНМ використовувати переваги двовимірної структури даних входу.
Її схема з'єднання вузлів натхнена будовою зорової кори. Вузли реагують на стимули в обмеженій області простору, відомій як рецептивне поле. Рецептивні поля частково перекриваються, накриваючи все поле зору. Відгук вузла можливо наблизити математично операцією згортки.[22]
ЗНМ підходять для обробки візуальних та інших двовимірних даних.[23][24] Вони показали чудові результати у застосуваннях як до зображень, так і до мовлення. Їх можливо тренувати стандартним зворотним поширенням. ЗНМ тренувати легше, ніж інші звичайні глибокі нейронні мережі прямого поширення, і вони мають набагато менше параметрів для оцінювання.[25]
Капсульні нейронні мережі (англ.CapsNet) додають до ЗНМ структури, звані капсулами (англ.capsules), й перевикористовують дані виходу кількох капсул для формування стабільніших (щодо різних збурень) подань.[26]
Глибока складальна мережа (ГСМ, англ.deep stacking network, DSN)[31] (глибока опукла мережа, англ.deep convex network) ґрунтується на ієрархії блоків спрощених нейромережних модулів. Її запропонували 2011 року Ден та Ю.[32] Вона формулює навчання як задачу опуклої оптимізації з розв'язком замкненого вигляду, підкреслюючи подібність цього механізму до складального узагальнювання.[33] Кожен блок ГСМ — це простий модуль, який сам по собі легко натренувати керованим чином без зворотного поширення для цілих блоків.[8]
Кожен блок складається зі спрощеного багатошарового перцептрона (БШП) з єдиним прихованим шаром. Прихований шар h має логістичні сигмоїднівузли, а шар виходу — лінійні. З'єднання між цими шарами подано ваговою матрицею U; з'єднання входу з прихованим шаром мають вагову матрицю W. Цільові вектори t утворюють стовпці матриці T, а вектори даних входу x утворюють стовпці матриці X. Матрицею прихованих вузлів є . Модулі тренують по черзі, тож ваги нижчого шару W на кожному етапі відомі. Функція виконує поелементну логістичну сигмоїдну дію. Кожен із блоків оцінює один і той же клас кінцевих міток y, і його оцінка поєднується з первинним входом X для утворення розширеного входу для наступного блоку. Таким чином, вхід першого блоку містить лише первинні дані, тоді як до входів наступних блоків додаються також і виходи попередніх блоків. Тоді навчання вагової матриці U вищого шару за заданих інших ваг у мережі можливо сформулювати як задачу опуклої оптимізації:
На відміну від інших глибоких архітектур, таких як ГМП, метою є не виявляння перетвореного подання ознак. Структура ієрархії такого типу архітектури робить паралельне навчання прямолінійним, як задача оптимізації в пакетному режимі. У суто розрізнювальних завданнях ГСМ перевершують звичайні ГМП.
Тензорні глибокі складальні мережі
Ця архітектура — розширення ГСМ. Вона пропонує два важливі вдосконалення: вона використовує інформацію вищого порядку з коваріаційних статистик, і вона перетворює неопуклу задачу нижчого шару на опуклу підзадачу вищого шару.[34] ТГСМ використовують коваріаційну статистику в білінійному відображенні з кожного з двох окремих наборів прихованих вузлів одного й того ж шару до передбачень за допомогою тензора третього порядку.
В той час як розпаралелювання й масштабованість у звичайних ГНМ не розглядають серйозно,[35][36][37] все навчання для ГСМ і ТГСМ здійснюється в пакетному режимі, що уможливлює розпаралелювання.[32][31] Розпаралелювання дозволяє масштабувати цю конструкцію на більші (глибші) архітектури та набори даних.
Ця базова архітектура підходить для різноманітних завдань, таких як класифікування та регресія.
Регуляторний зворотній зв'язок
Мережі з регуляторним зворотним зв'язком (англ.regulatory feedback networks) мали початок як модель для пояснення мозкових явищ, виявляних під час розпізнавання, включно пакетуванням[en] в усій мережі та труднощами зі схожістю[en], універсальними при сенсорному розпізнаванні. Механізм для виконання оптимізації під час розпізнавання створюють за допомогою гальмівних з'єднань зворотного зв'язку з тими же входами, які їх активують. Це зменшує вимоги під час навчання та дозволяє полегшити навчання та уточнення, залишаючи можливість виконувати складне розпізнавання.
Мережа з регуляторним зворотним зв'язком здійснює висновування з використанням негативного зворотного зв'язку.[38] Зворотній зв'язок використовується для пошуку оптимального збудження вузлів. Це найбільше схоже на непараметричний метод[en], але відрізняється від k-найближчих сусідів тим, що математично емулює мережі прямого поширення.
Радіальні базисні функції (англ.radial basis functions) — це функції, які мають критерій відстані відносно якогось центру. Радіальні базисні функції застосовували як заміну сигмоїдної передавальної характеристики прихованого шару в багатошарових перцептронах. Радіальнобазисні мережі (РБМ) мають два шари: на першому дані входу відображувано на кожну РБФ у «прихованому» шарі. Як РБФ зазвичай обирають гауссіани. У задачах регресії шар виходу це лінійна комбінація значень прихованого шару, що подає середній передбачуваний результат. Інтерпретація цього значення шару виходу така же, як і регресійна модель у статистиці. У задачах класифікування шар виходу це зазвичай сигмоїдна функція лінійної комбінації значень прихованого шару, що подає апостеріорну ймовірність. Продуктивність в обох випадках часто покращують за допомогою стискальних[en] методик, відомих у класичній статистиці як гребенева регресія. Це відповідає апріорному переконанню в малих значеннях параметрів (а відтак і гладких функціях виходу) в баєсовій системі.
Радіальнобазисні мережі мають перевагу уникання локальних мінімумів так само, як і багатошарові перцептрони. Це пов'язано з тим, що єдині параметри, які підлаштовуються в процесі навчання, це лінійне відображення з прихованого шару до шару виходу. Лінійність гарантує, що поверхня похибки квадратична, і відтак має єдиний мінімум, який легко знаходити. У задачах регресії його можливо знаходити за одну матричну операцію. У задачах класифікування із фіксованою нелінійністю, яку вносить сигмоїдна функція виходу, найефективніше впоруватися за допомогою ітеративно перезважуваних найменших квадратів[en].
РБМ мають недолік вимагання доброго покриття простору входу радіальними базисними функціями. Центри РБФ визначають із прив'язкою до розподілу даних входу, але без прив'язки до завдання передбачування. Як результат, ресурси подання можуть марнуватися на ділянках простору входу, що не мають відношення до цього завдання. Поширене розв'язання — пов'язати кожну точку даних з її власним центром, хоча це може розширювати лінійну систему для розв'язування на кінцевому шарі, й потребувати стискальних методик задля уникнення перенавчання.
Пов'язування кожних вхідних даних із РБФ природним чином призводить до таких ядрових методів як опорновекторні машини (ОВМ) та гауссові процеси (РБФ — ядрова функція[en]). Усі три підходи використовують нелінійну ядрову функцію для проєціювання даних входу до простору, в якому задачу навчання можливо розв'язати за допомогою лінійної моделі. Подібно до гауссових процесів, і на відміну від ОВМ, радіальнобазисні мережі зазвичай тренують за системою максимальної правдоподібності, максимізуючи ймовірність (мінімізуючи похибку). ОВМ уникають перенавчання, максимізуючи натомість розділення. ОВМ перевершують РБМ у більшості застосувань класифікування. У застосуваннях регресії вони можуть бути конкурентоспроможними, коли розмірність простору входу відносно мала.
Як працюють РБМ
Радіальнобазисні нейронні мережі концептуально подібні моделям k-найближчих сусідів (k-НС). Основна ідея полягає в подібності виходів для подібних входів.
Припустімо, що кожен випадок у тренувальному наборі має дві змінні—передбачувачі, x та y, а цільова змінна має дві категорії, позитивну та негативну. Як обчислюється цільова змінна за заданого нового випадку з передбачувальними значеннями x = 6, y = 5,1?
Класифікація найближчих сусідів, виконувана для цього прикладу, залежить від того, скільки сусідніх точок розглядають. Якщо використовують 1-НС, і найближча точка негативна, то нову точку слід класифікувати як негативну. Іншим чином, якщо використовують класифікацію 9-НС і враховують найближчі 9 точок, то вплив навколишніх 8 позитивних точок може переважити найближчу 9-ту (негативну) точку.
РБМ розташовує нейрони в просторі, описуваному змінними—передбачувачами (x, y у цьому прикладі). Цей простір має стільки вимірів, скільки змінних—передбачувачів. Евклідову відстань обчислюють від нової точки до центру кожного нейрона, а радіальну базисну функцію (РБФ, також звану ядровою функцією) застосовують до відстані для обчислення ваги (впливу) для кожного нейрона. Радіальну базисну функцію називають так тому, що аргументом цією функції є радіусна відстань.
Вага = РБФ (відстань)
Радіальна базисна функція
Значення для нової точки визначають підсумовуванням значень виходу функцій РБФ, помножених на ваги, обчислені для кожного нейрона.
Радіальна базисна функція для нейрона має центр і радіус (також званий розкидом, англ.spread). Радіус може бути різним для кожного нейрона, а в РБМ, породжуваних DTREG, радіус може відрізнятися й у кожному вимірі.
За більшого розкиду віддалені від точки нейрони мають більший вплив.
Архітектура
РБМ мають три шари:
Шар входу: у шарі входу по одному нейрону для кожної змінної—передбачувача. У випадку категорійних змінних використовують N-1 нейронів, де N — кількість категорій. Нейрони входу стандартизують діапазони значень відніманням медіани та діленням на міжквартильний розмах. Потім нейрони входу передають значення кожному з нейронів прихованого шару.
Прихований шар: цей шар має змінну кількість нейронів (визначувану процесом тренування). Кожен нейрон складається з радіальної базисної функції з центром у точці з такою кількістю вимірів, скільки змінних—передбачувачів. Розкид (радіус) РБФ може відрізнятися для кожного виміру. Центри та розкиди визначає тренування. Коли подано вектор x значень входу з шару входу, прихований нейрон обчислює евклідову відстань цього випробувального випадку від своєї центральної точки, а потім застосовує ядрову РБФ до цієї відстані, використовуючи значення розкиду. Отримане значення передається на рівень підсумовування.
Рівень підсумовування: значення, що надходить із нейрона в прихованому шарі, множиться на вагу, пов'язану з цим нейроном, і додається до зважених значень інших нейронів. Ця сума стає результатом. Для задач класифікування видається по одному виходу (з окремим набором вагових коефіцієнтів та одиницею підсумовування) для кожної цільової категорії. Вихідним значенням для категорії є ймовірність того, що оцінюваний випадок має цю категорію.
Тренування
Процес тренування визначає такі параметри:
Кількість нейронів у прихованому шарі
Координати центру кожної РБФ прихованого шару
Радіус (розкид) кожної РБФ у кожному вимірі
Ваги, застосовувані до виходів РБФ, коли вони переходять на рівень підсумовування
Для тренування РБМ використовували різні методи. Один підхід спочатку використовує кластерування методом k-середніх для пошуку центрів кластерів, які потім використовують як центри для РБФ. Проте кластерування методом k-середніх обчислювально витратне й часто не породжує оптимальної кількості центрів. Інший підхід полягає у використанні випадкової підмножини тренувальних точок як центрів.
DTREG використовує алгоритм тренування, який використовує еволюційний підхід для визначання оптимальних точок центрів та розкидів для кожного нейрона. Він визначає, коли припинити додавання нейронів до мережі, відстежуючи оцінювану похибку виключення по одному (англ.LOO, leave-one-out error), і припиняючи, коли похибка LOO починає збільшуватися через перенавчання.
Обчислення оптимальних ваг між нейронами в прихованому шарі та шарі підсумовування виконують за допомогою гребеневої регресії. Ітеративна процедура обчислює оптимальний параметр лямбда регуляризації, який мінімізує похибку узагальненого перехресного затверджування (англ.generalized cross-validation, GCV).
Узагальнена регресійна нейронна мережа (англ.General regression neural network, GRNN) — це нейронна мережа асоціативної пам'яті, подібна до ймовірнісної нейронної мережі, але яку використовують для регресії та наближення, а не для класифікування.
Глибока мережа переконань (ГМП, англ.deep belief network, DBN) — це ймовірнісна породжувальна модель, що складається з кількох прихованих шарів. Її можливо вважати композицією простих модулів, що вчаться.[39]
ГМП можливо використовувати для породжувального попереднього тренування глибокої нейронної мережі (ГНМ, англ.deep neural network, DNN), використовуючи отримані ваги ГМП як початкові ваги ГНМ. Потім різні розрізнювальні алгоритми можуть доналаштовувати ці ваги. Це особливо корисно, коли тренувальні дані обмежені, оскільки погано встановлені початкові ваги можуть значно перешкоджати тренуванню. Ці попередньо натреновані ваги потрапляють в область простору ваг, ближчу до оптимальних ваг, ніж випадкові варіанти. Це забезпечує як покращене моделювання, так і швидшу остаточну збіжність.[40]
Рекурентні нейронні мережі (РНМ, англ.Recurrent neural networks, RNN) поширюють дані вперед, але також і назад, від пізніших етапів обробки до попередніх. РНМ можливо використовувати як загальні обробники послідовностей.
Повнорекурентна
Цю архітектуру розроблено в 1980-х роках. Її мережа створює орієнтоване з'єднання між кожною парою вузлів. Кожен має змінне в часі дійснозначне (більше ніж просто нуль або одиниця) збудження (вихід). Кожне з'єднання має змінювану дійснозначну вагу. Деякі з вузлів називаються міченими вузлами, деякі — вузлами виходу, решту — прихованими вузлами.
Для керованого навчання в дискретночасовій постановці тренувальні послідовності дійснозначних векторів входу стають послідовностями збудження вузлів входу, по одному вектору входу за раз. На кожному кроці часу кожен невхідний вузол обчислює своє поточне збудження як нелінійну функцію зваженої суми збуджень усіх вузлів, від яких він отримує з'єднання. Система може явно збуджувати (незалежно від сигналів входу) деякі вузли виходу в певні моменти часу. Наприклад, якщо послідовність входу ще мовленнєвий сигнал, що відповідає вимовленій цифрі, кінцевим цільовим виходом у кінці послідовності може бути мітка, яка класифікує цю цифру. Для кожної послідовності її похибка це сума відхилень усіх збуджень, обчислених мережею, від відповідних цільових сигналів. Для тренувального набору численних послідовностей загальна похибка це сума помилок усіх окремих послідовностей.
Щоби мінімізувати загальну похибку, можливо використовувати градієнтний спуск, щоби змінювати кожну вагу пропорційно її похідній відносно похибки, за умови, що нелінійні передавальні функції диференційовні. Стандартний метод називають «зворотним поширенням у часі» або ЗПЧ (англ.backpropagation through time, BPTT), це узагальнення зворотного поширення для мереж прямого поширення.[41][42] Обчислювально витратніший інтерактивний варіант називають «реальночасовим рекурентним навчанням» або РЧРН (англ.Real-Time Recurrent Learning, RTRL).[43][44] На відміну від ЗПЧ цей алгоритм локальний у часі, але не локальний у просторі.[45][46] Існує інтерактивний гібрид ЗПЧ та ЗЧРН із проміжною складністю[47][48] з варіантами для безперервного часу.[49] Основна проблема з градієнтним спуском для стандартних архітектур РНМ полягає в тому, що градієнти похибок зникають експоненційно швидко з розміром часової затримки між важливими подіями.[50][51] Ці проблеми долає архітектура довгої короткочасної пам'яті.[52]
Мережа Гопфілда (як і подібні мережі на основі атракторів) становить історичний інтерес, хоча вона не є загальною РНМ, оскільки вона не призначена для обробки послідовностей зразків. Натомість їй потрібні стаціонарні входи. Це РНМ, у якій усі з'єднання симетричні. Вона гарантує свою збіжність. Якщо з'єднання треновано з використанням геббового навчання, мережа Гопфілда може працювати як робастна асоціативна пам'ять, стійка до змін з'єднань.
Машину Больцмана можливо розглядати як зашумлену мережу Гопфілда. Це одна з перших нейронних мереж, яка продемонструвала навчання латентних змінних (прихованих вузлів). Навчання машини Больцмана спочатку симулювалося повільно, але алгоритм контрастивного розходження пришвидшує тренування машин Больцмана та добутків експертів[en].
Самоорганізаційна карта (СОК, англ.self-organizing map, SOM) використовує некероване навчання. Набір нейронів навчається відображувати точки простору входу на координати у просторі виходу. Простір входу може мати відмінні виміри та топологію, ніж простір виходу, і СОК намагається їх зберегти.
Навчане векторне квантування[en] (НВК, англ.learning vector quantization, LVQ) можливо інтерпретувати як нейромережну архітектуру. Прототипні представники класів параметризують, разом із відповідною мірою відстані, у схемі класифікації на основі відстані.
Проста рекурентна
Прості рекурентні мережі (англ.simple recurrent networks) мають три шари з додаванням набору «контекстних вузлів» на шарі входу. До цих вузлів надходять з'єднання з прихованого шару або шару виходу з фіксованою одиничною вагою.[53] На кожному часовому кроці вхідні дані поширюються стандартним прямим чином, а потім застосовується подібне до зворотного поширення правило навчання (без виконання градієнтного спуску). Фіксовані зворотні з'єднання залишають копію попередніх значень прихованих вузлів у контекстних вузлах (оскільки вони поширюються з'єднаннями до застосування правила навчання).
Резервуарне обчислення (англ.reservoir computing) — це обчислювальна система, яку можливо розглядати як розширення нейронних мереж.[54] Зазвичай сигнал входу подають у фіксовану (випадкову) динамічну систему, звану резервуаром (англ.reservoir), чия динаміка відображає сигнал входу до вищої вимірності. Механізм зчитування (англ.readout) тренують відображувати цей резервуар до бажаного виходу. Тренування здійснюють лише на етапі зчитування. Одним із типів резервуарного обчислення є рідкі скінченні автомати.[55][56]
Мережа з відлунням стану (МВС, англ.echo state network, ESN) використовує розріджено з'єднаний випадковий прихований шар. Єдиною тренованою частиною мережі є ваги нейронів виходу. МВС добре відтворюють певні часові ряди.[57]
Довга короткочасна пам'ять (ДКЧП, англ.long short-term memory, LSTM)[52] дозволяє уникати проблеми зникання градієнта. Вона працює навіть із великими затримками між входами та може обробляти сигнали, які змішують низькочастотні та високочастотні складові. РНМ ДКЧП перевершували інші РНМ та інші методи навчання послідовностей, такі як ПММ, у таких застосуваннях як вивчення мови[58] та розпізнавання неперервного рукописного тексту.[59]
Двонапрямна РНМ, або ДРНМ (англ.bi-directional RNN, BRNN), використовує скінченну послідовність для передбачування або мічення кожного елемента послідовності на основі як минулого, так і майбутнього контексту цього елемента.[60] Це здійснюють додаванням виходів двох РНМ: одна оброблює послідовність зліва направо, інша — справа наліво. Поєднані виходи це передбачувачі надаваних учителем цільових сигналів. Ця методика виявилася особливо корисною у поєднанні з ДКЧП.[61]
Відмінну форму звичайних нейронних мереж, стохастичну штучну нейронну мережу (англ.stochastic artificial neural network), використовували як наближення випадкових функцій.
Генетичний масштаб
РНМ (часто ДКЧП), де ряд розкладають на кілька масштабів, кожен з яких інформує про основну відстань між двома послідовними точками. Масштаб першого порядку складається з нормальної РНМ, другого порядку складається з усіх точок, розділених двома індексами, і так далі. РНМ N-го порядку з'єднує перший та останній вузол. Результати з усіх різних масштабів розглядають як комітетну машину[en], а пов'язані оцінки використовують генетично для наступної ітерації.
Біологічні дослідження показали, що людський мозок працює як сукупність невеликих мереж. Це усвідомлення породило поняття модульних нейронних мереж, у яких кілька невеликих мереж співпрацюють або змагаються для розв'язання задачі.
Комітет машин (КМ, англ.committee of machines, CoM) — це набір різних нейронних мереж, які разом «голосують» за певний приклад. Загалом це дає набагато кращий результат, ніж окремі мережі. Оскільки нейронні мережі страждають на локальні мінімуми, починання з тієї самої архітектури та тренування, але з використанням випадково різних початкових ваг, часто дають дуже різні результати.[джерело?] КМ прагне стабілізувати цей результат.
КМ схожий на загальний метод машинного навчаннянатяжкове агрегування (англ.bagging), за винятком того, що необхідну різноманітність машин у комітеті отримують тренуванням з різними початковими вагами, а не тренуванням на різних випадково вибраних підмножинах тренувальних даних.
Асоціативна
Асоціативна нейронна мережа (АСНМ, англ.associative neural network, ASNN) — це розширення комітету машин, яке поєднує декілька нейронних мереж прямого поширення та методику k-найближчих сусідів. Вона використовує кореляцію між відгуками ансамблю як міру відстані серед проаналізованих випадків для kНС. Це виправляє зміщення ансамблю нейронної мережі. Асоціативна нейронна мережа має пам'ять, яка може збігатися з тренувальним набором. Якщо стають доступними нові дані, мережа миттєво покращує свою передбачувальну здатність і забезпечує наближення даних (самонавчається) без перетреновування. Інша важлива особливість АСНМ це можливість інтерпретування результатів нейронної мережі шляхом аналізу кореляцій між випадками даних у просторі моделей.[64]
Динамічні нейронні мережі (англ.dynamic neural networks) розглядають нелінійну багатовимірну поведінку та включають (навчання) залежної від часу поведінки, такої як перехідні явища та ефекти затримки. Методики оцінювання системного процесу на основі спостережуваних даних підпадають під загальну категорію виявляння системи.
Каскадна
Каскадна кореляція (англ.cascade correlation) — це архітектура та алгоритмкерованого навчання. Замість простого підлаштовування ваг у мережі з фіксованою топологією[66] каскадна кореляція починається з мінімальної мережі, а потім автоматично тренується й додає нові приховані вузли один за одним, створюючи багатошарову структуру. Щойно новий прихований вузол додано до мережі, його ваги з боку входу заморожуються. Тоді цей вузол стає постійним виявлячем ознак у мережі, доступним для отримування виходів або для створення інших, складніших виявлячів ознак. Архітектура каскадної кореляції має кілька переваг: вона швидко навчається, визначає власний розмір і топологію, зберігає створені структури, навіть якщо тренувальний набір змінюється, і не вимагає зворотного поширення.
Нейронечітка мережа (англ.neuro-fuzzy network) — це система нечіткоговисновування (СНВ, англ.fuzzy inference system, FIS) в тілі штучної нейронної мережі. Залежно від типу СНВ кілька шарів імітують процеси, залучені у подібних до нечіткого висновування внесенні нечіткості (англ.fuzzification), висновуванні, агрегуванні та відновленні чіткості (англ.defuzzification). Вбудовування СНВ у загальну структуру ШНМ має перевагу використання доступних методів тренування ШНМ для знаходження параметрів нечіткої системи.
Композиційні шаблоностворювальні мережі (КШСМ, англ.compositional pattern-producing networks, CPPN) — це різновид штучних нейронних мереж, які відрізняються своїм набором передавальних функцій та способом їх застосовування. У той час як типові штучні нейронні мережі часто містять лише сигмоїдні функції (й іноді гауссові), КШСМ можуть містити обидва типи функцій та багато інших. Крім того, на відміну від типових штучних нейронних мереж, КШСМ застосовують над усім простором можливих даних входу, щоби вони могли подавати повне зображення. Оскільки вони є композиціями функцій, КШСМ фактично кодують зображення з нескінченною роздільністю, і їх можливо дискретизувати для конкретного дисплея з будь-якою оптимальною роздільністю.
Мережі з пам'яттю
Мережі з пам'яттю (англ.memory networks)[67][68] включають довготривалу пам’ять[en]. Цю довготривалу пам'ять можливо читати та записувати до неї з метою використання її для передбачування. Ці моделі застосовували в контексті відповідання на питання (англ.question answering, QA), де довготривала пам'ять фактично діє як (динамічна) база знань, а виходом є текстова відповідь.[69]
Цей тип мережі (англ.one-shot associative memory) може додавати нові образи без перетреновування. Це здійснюється шляхом створення спеціальної структури пам'яті, яка призначує кожен новий образ ортогональній площині за допомогою суміжно з'єднаних ієрархічних масивів.[71] Ця мережа пропонує реальночасове розпізнавання образів та високу масштабованість; це вимагає паралельної обробки й тому найкраще підходить для таких платформ, як бездротові сенсорні мережі, мережні обчислення та ГПЗП.
Ієрархічна часова пам'ять (ІЧП, англ.hierarchical temporal memory, HTM) моделює деякі структурні та алгоритмічні властивості нової кори. ІЧП — біоміметична модель, що ґрунтується на теорії пам'яті — передбачування. ІЧП — це метод для виявляння та висновування високорівневих причин спостережуваних вхідних образів та послідовностей, і відтак побудови дедалі складнішої моделі світу.
ІЧП поєднує наявні ідеї щоби імітувати нову кору простою конструкцією, яка пропонує багато можливостей. ІЧП поєднує та розширює підходи, використовувані в баєсових мережах, алгоритмах просторового та часового кластерування, використовуючи при цьому деревоподібну ієрархію вузлів, поширену в нейронних мережах.
Голографічна асоціативна пам'ять (ГАП, англ.Holographic Associative Memory, HAM) — це аналогова кореляційна асоціативна система «стимул-відгук». Інформація відображається на фазове спрямування комплексних чисел. Ця пам'ять ефективна для завдань асоціативногозапам'ятовування, узагальнювання та розпізнавання образів зі змінною увагою. Динамічна локалізація пошуку є центральною для біологічної пам'яті. При зоровому сприйнятті люди зосереджуються на конкретних об'єктах в образі. Люди можуть змінювати зосередження з об'єкта на об'єкт без навчання. ГАП може імітувати цю здатність, створюючи явні подання для зосереджування. Вона використовує бімодальне подання образа та схожий на голограму комплексний сферичний ваговий простір станів. ГАМ корисні для оптичного втілювання, оскільки гіперсферичні обчислення в їхній основі можливо втілювати за допомогою оптичних обчислень.[72]
Пов'язані з ДКЧП диференційовні структури пам'яті
Окрім довгої короткочасної пам'яті (ДКЧП), інші підходи також додали диференційовну пам'ять до рекурентних функцій. Наприклад:
Диференційовні дії проштовхування та виштовхування для мереж альтернативної пам'яті, звані нейронними стековими машинами (англ.neural stack machines)[73][74]
Мережі пам'яті, в яких зовнішнє диференційовне сховище керівної мережі знаходиться у швидких вагах іншої мережі[75]
Автореферентні РНМ з особливими вузлами виходу для адресування та швидкого маніпулювання власними вагами РНМ на диференційовний манір (внутрішнє сховище)[77][78]
Нейронні машини Тюрінга (НМТ, англ.neural Turing machines)[80] спаровують мережі ДКЧП із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою процесів уваги (англ.attentional processes). Ця зв'язана система аналогічна машині Тюрінга, але диференціюється наскрізно, що дозволяє ефективно тренувати її градієнтним спуском. Попередні результати показують, що нейронні машини Тюрінга можуть висновувати з прикладів входу та виходу прості алгоритми, такі як копіювання, впорядковування та асоціативне пригадування.
Підходи, які подають попередній досвід безпосередньо, і використовують схожий досвід для формування локальної моделі, часто називають методами найближчого сусіда або k-найближчих сусідів.[86] В семантичному гешуванні (англ.semantic hashing) корисне глибоке навчання,[87] де з великого набору документів отримують глибоку графову модель векторів кількостей слів.[88] Документи відображуються на комірки пам'яті таким чином, що семантично схожі документи розташовуються за близькими адресами. Потім документи, схожі на документ із запиту, можливо знаходити шляхом простого доступу до всіх адрес, що відрізняються від адреси документа із запиту лише кількома бітами. На відміну від розрідженої розподіленої пам’яті[en], що оперує 1000-бітними адресами, семантичне гешування працює на 32- або 64-бітних адресах, що зустрічаються в традиційній комп'ютерній архітектурі.
Вказівникові мережі
Глибокі нейронні мережі можливо потенційно поліпшувати поглибленням та скороченням параметрів, за збереження здатності до тренування. В той час як тренування надзвичайно глибоких (наприклад, завглибшки в мільйон шарів) нейронних мереж може бути непрактичним, ЦП-подібні архітектури, такі як вказівникові мережі (англ.pointer networks),[89] та нейронні машини з довільним доступом (англ.neural random-access machines),[90] долають це обмеження завдяки застосуванню зовнішньої пам'яті з довільним доступом та інших складових, що зазвичай належать до комп'ютерної архітектури, таких як регістри, АЛП та вказівники. Такі системи працюють на векторах розподілів імовірностей, що зберігаються в комірках пам'яті та регістрах. Таким чином, ця модель повністю диференційовна, й тренується з краю в край. Ключовою характеристикою цих моделей є те, що їхня глибина, розмір їхньої короткочасної пам'яті та число параметрів можливо змінювати незалежно.
Гібриди
Кодувально—декодувальні мережі
Кодувально-декодувальні системи (англ.encoder–decoder frameworks) ґрунтуються на нейронних мережах, що відображують високоструктурований вхід на високоструктурований вихід. Цей підхід виник у контексті машинного перекладу,[91][92][93] де вхід та вихід є писаними реченнями двома природними мовами. В тій праці використовували РНМ або ЗНМДКЧП як кодувальник для отримання зведення про вхідне речення, і це зведення декодували умовною РНМ-моделлю мови для продукування перекладу.[94] Для цих систем є спільними будівельні блоки: вентильні (англ.gated) РНМ та ЗНМ, і треновані механізми уваги.
Інші типи
Миттєво треновані
Миттєво треновані нейронні мережі[en] (МТНН, англ.Instantaneously trained neural networks, ITNN) були натхнені явищем короткочасного навчання (англ.short-term learning), яке, здається, відбувається миттєво. У цих мережах ваги прихованого шару та шару виходу відображаються безпосередньо з даних тренувального вектора. Зазвичай вони працюють з двійковими даними, але існують версії й для неперервних даних, які потребують невеликої додаткової обробки.
Спайкові
Спайкові нейронні мережі[en] (СНМ, англ.spiking neural networks, SNN) явно враховують хронометраж вхідних даних. Вхід та вихід цієї мережі зазвичай подано у вигляді рядів спайків (дельта-функції або складнішого вигляду). СНМ може обробляти інформацію в часовій області (сигналів, які змінюються в часі). Їх часто втілюють як рекурентні мережі. СНМ також є одним із видів імпульсних комп'ютерів[en].[95]
Спайкові нейронні мережі з затримками аксональної провідності демонструють поліхронізацію, і відтак можуть мати дуже велику ємність пам'яті.[96]
СНМ та часові кореляції нейронних збірок у таких мережах використовували для моделювання поділу фігур/тла та з'єднування областей у зоровій системі.
Просторові нейронні мережі (ПНМ, англ.spatial neural networks, SNN) становлять надкатегорію спеціалізованих нейронних мереж (НМ) для подавання та передбачування географічних явищ. Вони загалом покращують як статистичну точність, так і надійність а-просторових/класичних НМ, коли обробляють геопросторові набори даних, а також інших просторових (статистичних) моделей (наприклад, просторових регресійних моделей), коли змінні цих геопросторових наборів даних описують нелінійні зв'язки.[97][98][99] Прикладами ПНМ є поросторові нейронні мережі OSFA, SVANN та GWNN.
Неокогнітрон
Неокогнітрон (англ.neocognitron) — це ієрархічна багатошарова мережа, змодельована на основі зорової кори. Він використовує кілька типів вузлів (первинно два, звані простими[en], англ.simple, та складними[en], англ.complex, клітинами) як каскадну модель для використання в задачах розпізнавання образів.[100][101][102] Локальні ознаки виділяють S-клітини, деформацію яких допускають C-клітини. Локальні ознаки у вході поступово інтегруються та класифікуються на вищих шарах.[103] Серед різних видів неокогнітронів[104] є системи, які можуть виявляти декілька образів в одному вході за допомогою зворотного поширення для досягнення вибіркової уваги[en].[105] Його використовували для завдань розпізнавання образів, він надихнув згорткові нейронні мережі.[106]
Змішані ієрархічно—глибокі моделі
Змішані ієрархічно-глибокі моделі (англ.compound hierarchical-deep models) компонують глибокі мережі з непараметричними баєсовими моделями. Ознак можливо навчатися із застосуванням таких глибоких архітектур як ГМП,[107]глибокі машини Больцмана (ГМБ),[108] глибокі автокодувальники,[109] згорткові варіанти,[110][111]ппОМБ,[112] глибокі кодувальні мережі,[113] ГМП з розрідженим навчанням ознак,[114]РНМ,[115] умовні ГМП,[116]знешумлювальні автокодувальники.[117] Це забезпечує краще подання, швидше навчання та точніше класифікування з даними високої вимірності. Проте ці архітектури слабкі в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до подання входу (розподілене подання) і мусить бути підлаштовувано разом (високий ступінь свободи). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. Ієрархічні баєсові (ІБ) моделі дозволяють навчатися з кількох прикладів, наприклад[118][119][120][121][122] для комп'ютерного бачення, статистики та когнітивної науки.
Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибоких мереж. Змішана архітектура ІПД-ГМБ це ієрархічний процес Діріхле[en](ІПД,англ.hierarchical Dirichlet process, HDP) як ієрархічна модель, що включає архітектуру ГМБ. Це повна породжувальна модель, узагальнювана з абстрактних понять, що течуть крізь шари цієї моделі, здатна синтезувати нові приклади нововведених класів, що виглядають «досить» природно. Всіх рівнів навчаються спільно, зведенням до максимуму функції внеску спільної логарифмічної ймовірності.[123]
У ГМБ з трьома прихованими шарами ймовірність видимого входу ''ν'' становить
де — набір прихованих вузлів, а — параметри моделі, що подають умови симетричної взаємодії видимі—приховані та приховані—приховані.
Тут подає умовну модель ГМБ, яку можливо розглядати як двошарову ГМБ, але з членами зміщення, заданими станами :
Глибокі передбачувальні кодувальні мережі
Глибока передбачувальна кодувальна мережа (ГПКМ, англ.deep predictive coding network, DPCN) — це передбачувальна схема кодування, що використовує спадну (англ.top-down) інформацію для емпіричного підлаштовування апріорних, необхідних для процедури висхідного (англ.bottom-up) висновування, засобами глибокої локально з'єднаної породжувальної моделі. Це працює шляхом виділяння розріджених ознак зі спостережень, що змінюються в часі, із застосуванням лінійної динамічної моделі. Потім для навчання інваріантних подань ознак застосовується стратегія агрегування (англ.pooling). Ці блоки компонуються, щоби сформувати глибоку архітектуру, і тренуються жадібним пошаровим некерованим навчанням. Шари утворюють щось на зразок марковського ланцюга, такого, що стани на будь-якому шарі залежать лише від наступного та попереднього шарів.
ГПКМ передбачують подання шару, використовуючи спадний підхід із застосуванням інформації з вищого шару та часових залежностей від попередніх станів.[124]
Багатошарові ядрові машини (БЯМ, англ.Multilayer Kernel Machine, MKM) — це спосіб навчання високонелінійних функцій за допомогою ітеративного застосування слабко нелінійних ядер. Вони використовують ядровий метод головних компонент[en] (ЯМГК, англ.kernel principal component analysis, KPCA)[125] як метод для жадібного пошарового передтренувального кроку глибокого некерованого навчання.[126]
-й шар навчається подання попереднього шару , виділяючи головних компонент (ГК, англ.principal component, PC) виходу проєкційного шару в області ознак, що виводить ядро. Щоби знижувати розмірність уточненого подання на кожному шарі, керована стратегія обирає найінформативніші серед ознак, виділених ЯМГК. Процес такий:
значення з яким класифікатор досяг найнижчого рівня похибки, визначає число ознак, які потрібно зберегти.
Метод ЯМГК як будівельні блоки для БЯМ супроводжують деякі недоліки.
Для розуміння усного мовлення розробили простіший спосіб застосування ядрових машин для глибокого навчання.[127] Головна ідея полягає у використанні ядрової машини для наближення неглибокої нейронної мережі з нескінченним числом прихованих вузлів, і подальшому застосуванні глибокої складальної мережі для зрощування виходу цієї ядрової машини та сирого входу при побудові наступного, вищого рівня ядрової машини. Число рівнів у цій глибокій опуклій мережі є гіперпараметром системи в цілому, який повинен визначатися перехресним затверджуванням.
↑University Of Southern California (16 червня 2004). Gray Matters: New Clues Into How Neurons Process Information. ScienceDaily(англ.). Цитата: «… „Дивно, що після сотні років сучасних нейронаукових досліджень ми досі не знаємо базових функцій обробки інформації нейроном“, зазначив Барлетт Мел…»
↑Weizmann Institute of Science. (2 квітня 2007). It's Only A Game Of Chance: Leading Theory Of Perception Called Into Question. ScienceDaily(англ.). Цитата: «…„Починаючи з 1980-х років, багато нейробіологів вірили, що вони володіють ключем до того, як нарешті почати розуміти роботу мозку. Але ми надали переконливі свідчення того, що мозок може не кодувати інформацію за допомогою точних моделей діяльності.“…»
↑University Of California – Los Angeles (14 грудня 2004). UCLA Neuroscientist Gains Insights Into Human Brain From Study Of Marine Snail. ScienceDaily(англ.). Цитата: «…„Наша робота передбачає, що мозкові механізми для формування такого роду асоціацій можуть бути надзвичайно подібними у равликів і вищих організмів… Ми не повністю розуміємо навіть дуже прості види навчання у цих тварин.“…»
↑Yale University (13 квітня 2006). Brain Communicates In Analog And Digital Modes Simultaneously. ScienceDaily(англ.). Цитата: «…Маккормік сказав, що майбутні дослідження та моделі роботи нейронів у мозку повинні враховувати змішану аналогово-цифрову природу зв'язку. Лише завдяки глибокому розумінню цього змішаного способу передачі сигналу можна досягти дійсно глибокого розуміння мозку та його розладів, сказав він…»
↑van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (1 січня 2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (ред.). Deep content-based music recommendation(PDF)(англ.). Curran Associates. с. 2643—2651.
↑Collobert, Ronan; Weston, Jason (1 січня 2008). A unified architecture for natural language processing. Proceedings of the 25th international conference on Machine learning - ICML '08(англ.). New York, NY, USA: ACM. с. 160—167. doi:10.1145/1390156.1390177. ISBN978-1-60558-205-4. S2CID2617020.
↑Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An empirical evaluation of deep architectures on problems with many factors of variation. Proceedings of the 24th international conference on Machine learning. ICML '07 (англ.). New York, NY, USA: ACM. с. 473—480. CiteSeerX10.1.1.77.3242. doi:10.1145/1273496.1273556. ISBN9781595937933. S2CID14805281.
↑Schmidhuber, J. (1989). A local learning algorithm for dynamic feedforward and recurrent networks. Connection Science(англ.). 1 (4): 403—412. doi:10.1080/09540098908915650. S2CID18721007.
↑Principe, J.C.; Euliano, N.R.; Lefebvre, W.C. Neural and Adaptive Systems: Fundamentals through Simulation(англ.).
↑Williams, R. J. (1989). Complexity of exact gradient computation algorithms for recurrent neural networks. Technical Report Technical Report NU-CCS-89-27 (Звіт) (англ.). Boston: Northeastern University, College of Computer Science.
↑Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen (Дипломна робота Diploma) (нім.). Munich: Institut f. Informatik, Technische Univ.
↑Schrauwen, Benjamin; Verstraeten, David; Campenhout, Jan Van (2007). An overview of reservoir computing: theory, applications, and implementations. European Symposium on Artificial Neural Networks ESANN (англ.). с. 471—482.
↑Mass, Wolfgang; Nachtschlaeger, T.; Markram, H. (2002). Real-time computing without stable states: A new framework for neural computation based on perturbations. Neural Computation(англ.). 14 (11): 2531—2560. doi:10.1162/089976602760407955. PMID12433288. S2CID1045112.
↑Nasution, B.B.; Khan, A.I. (February 2008). A Hierarchical Graph Neuron Scheme for Real-Time Pattern Recognition. IEEE Transactions on Neural Networks(англ.). 19 (2): 212—229. doi:10.1109/TNN.2007.905857. PMID18269954. S2CID17573325.
↑Sutherland, John G. (1 січня 1990). A holographic model of memory, learning and expression. International Journal of Neural Systems(англ.). 01 (3): 259—267. doi:10.1142/S0129065790000163.
↑Das, S.; Giles, C.L.; Sun, G.Z. (1992). Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory. 14th Annual Conf. of the Cog. Sci. Soc. (англ.). с. 79.
↑Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). Learning to Learn Using Gradient Descent. ICANN(англ.). 2130: 87—94. CiteSeerX10.1.1.5.323.
↑Schmidhuber, Juergen (2015). Learning to Transduce with Unbounded Memory (англ.). arXiv:1506.02516 [cs.NE].
↑Gupta J, Molnar C, Xie Y, Knight J, Shekhar S (2021). Spatial variability aware deep neural networks (SVANN): a general approach. ACM Transactions on Intelligent Systems and Technology(англ.). 12 (6): 1—21. doi:10.1145/3466688. S2CID244786699.
↑Hagenauer J, Helbich M (2022). A geographically weighted artificial neural network. International Journal of Geographical Information Science(англ.). 36 (2): 215—235. doi:10.1080/13658816.2021.1871618. S2CID233883395.
↑Lee, Honglak; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Proceedings of the 26th Annual International Conference on Machine Learning(англ.). с. 609—616. CiteSeerX10.1.1.149.6800. doi:10.1145/1553374.1553453. ISBN9781605585161. S2CID12008458.
↑Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). Unsupervised Models of Images by Spike-and-Slab RBMs(PDF). Proceedings of the 28th International Conference on Machine Learning(англ.). Т. 10. с. 1—8. Архів оригіналу(PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
↑Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). Deep Coding Network. Advances in Neural Information Processing Systems 23 (NIPS 2010)(англ.). Т. 23. с. 1—9.
Fukushima, Kunihiko (1987). A hierarchical neural network model for selective attention. У Eckmiller, R.; Von der Malsburg, C. (ред.). Neural computers(англ.). Springer-Verlag. с. 81—90.