Зрі́заний ліні́йний ву́зол[1][2], іноді ви́прямлений ліні́йний ву́зол[3] (англ. rectified linear unit, ReLU[4]), або випрямля́ч[5][6] (англ. rectifier) у контексті штучних нейронних мереж є передавальною функцією, яка визначена таким чином:
де x вхідне значення нейрона. Вона є аналогом напівперіодичного випрямляча у схемотехніці. Ця передавальна функція була запроваджена для динамічних мереж Ганлозером (англ. Hahnloser) та іншими у 2000 році[7] з біологічним підґрунтям та математичним обґрунтуванням.[8] В 2011 році вперше було продемонстровано, як забезпечити краще навчання глибоких мереж,[9] на відміну від передавальних функцій, які широко використовувались до цього, а саме, логістичною функцією (яка була запозичена з теорії ймовірностей; дивись логістична регресія) і виявились більш практичними[10] ніж гіперболічний тангенс. ReLU є, станом на 2018, найбільш популярною передавальною функцією для глибоких нейронних мереж.[11][12]
Гладке наближення ReLU є гладкою функцією
яка називається softplus-функцією.[13] Похідною softplus є f ′ ( x ) = exp --> x / ( 1 + exp --> x ) = 1 / ( 1 + exp --> ( − − --> x ) ) {\displaystyle f'(x)=\exp x/(1+\exp x)=1/(1+\exp(-x))} , тобто логістична функція.
ReLU часто використовується при глибокому навчанні в задачах комп'ютерного зору[9] та розпізнавання мовлення[14][15].
До ReLU можна додати гауссів шум, що дає ReLU з шумом[4]
ReLU з шумом успішно використовуються в задачах комп'ютерного зору в обмежених машинах Больцмана.[4]
Нещільна ReLU використовує невеличкий додатній градієнт, коли передавач не активний.[15]
Параметрична ReLU узагальнює нещільну ReLU, а саме додається параметр нещільності, який навчається разом з іншими параметрами нейронної мережі.[16]
Зауважте, що для a ⩽ ⩽ --> 1 {\displaystyle a\leqslant 1} , це еквівалентно
і тому таке відношення називають «максимальним виводом» (англ. maxout) мережі.[16]
Експоненціально-лінійна ReLU робить середнє передавача ближчим до нуля, що прискорює навчання. Було показано, що ELU може отримати більш високу точність класифікації, ніж ReLU.[17]
f ( x ) = { x , якщо x ⩾ ⩾ --> 0 a ( e x − − --> 1 ) , інакше {\displaystyle f(x)={\begin{cases}x,&{\mbox{якщо }}x\geqslant 0\\a(e^{x}-1),&{\mbox{інакше}}\end{cases}}}
a {\displaystyle a} є гіперпараметром, який налаштовується і a ⩾ ⩾ --> 0 {\displaystyle a\geqslant 0} — константа.
ReLU було використано для відокремлення специфічного збудження та неспецифічного інгібування у піраміді з нейронною абстракцією (англ. Neural Abstraction Pyramid), яка була навчена керовано, щоб вирішувати декілька завдань комп'ютерного зору.[19] У 2011,[9] ReLU використовували як елемент нелінійності з метою показати, можливість глибокого навчання нейронної мережі без попереднього некерованого навчання. ReLU, на відміну від сигмоїда та подібних передавальних функцій, дозволяє швидше та ефективніше навчання глибоких нейронних мереж на великих та складних наборах даних.
Портали: Програмування • Техніка
Lokasi Pengunjung: 52.14.184.10