У галузі машинного навчання метою статистичної класифікації є використання характеристик об'єкту для ідентифікації класу (або групи), до якої він належить. Ліні́йний класифіка́тор (англ.linear classifier) досягає цього ухваленням рішення про класифікацію на основі значення лінійної комбінації цих характеристик. Характеристики об'єкту відомі також як значення ознак, і зазвичай представляються машині у векторі, що називається вектором ознак. Такі класифікатори добре працюють для таких практичних задач, як класифікація документів, і, загальніше, для задач із багатьма змінними (ознаками), досягаючи рівнів точності, порівнянних з нелінійними класифікаторами, у той же час беручи менше часу на тренування та застосування.[1]
Визначення
Якщо вектор ознак на вході класифікатора є дійсним вектором , то вихідною оцінкою є
де є дійсним вектором вагових коефіцієнтів, а f — функцією, яка перетворює скалярний добуток двох векторів на бажаний вихід. (Іншими словами, є 1-формою, або лінійним функціоналом, що відображує на R.) Ве́ктора вагових коефіцієнтів навчаються з набору мічених тренувальних зразків. Часто f є простою функцією, яка відображує всі значення понад певний поріг до першого класу, а всі інші — до другого. Складніша f може давати ймовірність приналежності елемента до певного класу.
Для двокласової задачі класифікації роботу лінійного класифікатора можна візуалізувати розділенням вхідного простору високої вимірностігіперплощиною: всі точки по один бік від гіперплощини класифікуються як «так», а всі інші — як «ні».
Лінійний класифікатор часто застосовується в ситуаціях, коли швидкість класифікації є проблемою, оскільки часто він є найшвидшим класифікатором, особливо коли є розрідженим. Лінійний класифікатор також часто дуже добре працює тоді, коли число вимірів є великим, як у класифікації документів, де кожен з елементів зазвичай є кількістю траплянь якогось слова в документі (див. документно-термінну матрицю). У таких випадках класифікатор повинен бути добре регуляризованим.
Другий набір методів включає розрізнювальні моделі, які намагаються максимізувати якість виходу на тренувальному наборі. Додаткові члени в тренувальній функції витрат можуть легко виконувати регуляризацію кінцевої моделі. До прикладів розрізнювального тренування лінійних класифікаторів належать:
Логістична регресія — оцінка максимальної правдоподібності , виходячи з того, що спостережуваний тренувальний набір було породжено біноміальною моделлю, яка залежить від виходу класифікатора.
Перцептрон — алгоритм, який намагається виправити всі помилки, що зустрілися в тренувальному наборі.
Зауваження: Незважаючи на свою назву, ЛДА в цій систематиці не належить до класу розрізнювальних моделей. Проте його назва має сенс, коли ми порівнюємо ЛДА з іншим основним алгоритмом зниження розмірності, методом головних компонент (МГК, англ.principal components analysis, PCA). ЛДА є алгоритмом керованого навчання, який використовує мітки даних, тоді як МГК є алгоритмом некерованого навчання, який мітки ігнорує. У підсумку, ця назва є історичним артефактом.[4]:117
Розрізнювальне тренування часто видає вищу точність, ніж моделювання функцій умовної густини. Проте робота з пропущеними даними часто є простішою з моделями умовної густини.
Всі перелічені вище алгоритми лінійної класифікації може бути перетворено на нелінійні алгоритми, що діють на відмінному вхідному просторі , за допомогою ядрового трюку.
Розрізнювальне тренування
Розрізнювальне тренування лінійних класифікаторів, як правило, здійснюється керованим чином, за допомогою алгоритму оптимізації, якому надається тренувальний набір із бажаними виходами, та функція втрат, яка задає міру невідповідності між виходами класифікатора, та бажаними. Таким чином, алгоритм навчання розв'язує задачу оптимізації наступного вигляду:[1]
де
w — вектор параметрів класифікатора,
L(yi, wTxi) — функція втрат, яка задає міру невідповідності між передбаченням класифікатора та справжнім виходом yi для i-того тренувального зразка,
R(w) — функція регуляризації, яка запобігає завеликим значенням параметрів (що спричиняє перенавчання), і
C — скалярна стала (встановлена користувачем алгоритму навчання), яка контролює баланс між регуляризацією та функцією втрат.
Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42–49, (1999). paper @ citeseer [Архівовано 3 травня 2008 у Wayback Machine.] (англ.)
R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X(англ.)