Логістична регресія (англ.logistic regression) або лоґіт-регресія (англ.logit model[1]) — статистичнийрегресійний метод, що застосовують у випадку, коли залежна змінна є бінарною[en], тобто може набувати тільки двох значень (0 або 1). При запровадженні порогового значення може знаходити застосування у класифікуванні.
Прикладом може слугувати класифікація електронних листів на «спам» або «не спам». Метод також використовується у медицині, наприклад, для визначення чи є пухлина злоякісною, чи доброякісною.
Визначення логістичної моделі
Нехай є деяка випадкова величина що може набувати лише двох значень, які, як правило, позначаються цифрами 0 і 1. Нехай ця величина залежить від деякої множини пояснювальних змінних Залежність від можна визначити ввівши додаткову змінну y*, де Тоді:
При визначенні логістичної моделі стохастичний доданок вважається випадковою величиною з логістичним розподілом ймовірностей. Відповідно для певних конкретних значень змінних одержується відповідне значення і ймовірність того, що така:
Передостання рівність випливає з симетричності логістичного розподілу, позначає логістичну функцію — функцію розподілу логістичного розподілу:
Таким чином для конкретного значення випадкова величина має розподіл Бернуллі:
Логіт-модель задовольняє наступній умові:
Оцінка параметрів
Оцінка параметрів на основі деякої вибірки , де — вектор значень незалежних змінних, а — відповідне їм значення як правило здійснюється за допомогою методу максимальної правдоподібності, згідно з яким вибираються параметри , що максимізують значення функції правдоподібності на вибірці:
Максимізація функції правдоподібності еквівалентна максимізації її логарифма: