Логістична регресія

Логістична регресія (англ. logistic regression) або лоґіт-регресія (англ. logit model[1]) — статистичний регресійний метод, що застосовують у випадку, коли залежна змінна є бінарною[en], тобто може набувати тільки двох значень (0 або 1). При запровадженні порогового значення може знаходити застосування у класифікуванні.

Приклади

Прикладом може слугувати класифікація електронних листів на «спам» або «не спам». Метод також використовується у медицині, наприклад, для визначення чи є пухлина злоякісною, чи доброякісною.

Визначення логістичної моделі

Нехай є деяка випадкова величина що може набувати лише двох значень, які, як правило, позначаються цифрами 0 і 1. Нехай ця величина залежить від деякої множини пояснювальних змінних Залежність від можна визначити ввівши додаткову змінну y*, де Тоді:

При визначенні логістичної моделі стохастичний доданок вважається випадковою величиною з логістичним розподілом ймовірностей. Відповідно для певних конкретних значень змінних одержується відповідне значення і ймовірність того, що така:

Передостання рівність випливає з симетричності логістичного розподілу, позначає логістичну функцію — функцію розподілу логістичного розподілу:

Таким чином для конкретного значення випадкова величина має розподіл Бернуллі:

Логіт-модель задовольняє наступній умові:

Оцінка параметрів

Оцінка параметрів на основі деякої вибірки , де  — вектор значень незалежних змінних, а  — відповідне їм значення як правило здійснюється за допомогою методу максимальної правдоподібності, згідно з яким вибираються параметри , що максимізують значення функції правдоподібності на вибірці:

Максимізація функції правдоподібності еквівалентна максимізації її логарифма:

Для максимізації цієї функції може бути застосований, наприклад, метод градієнтного спуску, метод Ньютона чи стохастичний градієнтний спуск.

Примітки

  1. David A. Freedman (2009). Statistical Models: Theory and Practice. Cambridge University Press. с. 128.
Логістична функція: .

Див. також

Література

  • Alan. Agresti: Categorical Data Analysis. Wiley-Interscience, Nowy Jork, 2002. ISBN 0-471-36093-7.
  • T. Amemiya: Advanced Econometrics. Harvard University Press, 1985. ISBN 0-674-00560-0.
  • N. Balakrishnan: Handbook of the Logistic Distribution. Marcel Dekker, Inc., 1991. ISBN 978-0-8247-8587-1.
  • William H. Green: Econometric Analysis, fifth edition. Prentice Hall, 2003. ISBN 0-13-066189-9.
  • Hosmer, David W., Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley. ISBN 0-471-35632-8.
  • Kleinbaum D.G., Logistic regression. A self-learning text, Springer-Verlag, 1994.