A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.[1][2]
A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão logística é utilizada em áreas como as seguintes:
Em medicina, permite por exemplo determinar os factores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos;
No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular;
Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito;
Em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em actos eleitorais.
O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.
Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica.
Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neurais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.
A regressão logística é usada em vários campos, incluindo o aprendizado de máquina (machine learning), a maioria dos campos médicos e ciências sociais. Por exemplo, o Trauma and Injury Severity Score (TRISS), que é amplamente utilizado para prever a mortalidade em pacientes feridos, foi originalmente desenvolvido por Boyd et al. usando regressão logística.[5] Muitas outras escalas médicas usadas para avaliar a severidade de doenças em pacientes têm sido desenvolvidas utilizando a regressão logística.[6][7][8][9] A regressão logística pode ser utilizada para prever o risco de desenvolver uma dada doença (por exemplo, diabetes ou doença arterial coronária), baseado em características observadas do paciente (idade, sexo, índice de massa corporal, resultados de vários testes de sangue, etc, etc.).[10][11][12] Um outro exemplo de uso da regressão logística seria para prever, por exemplo, se um eleitor votará em um dado partido baseado na idade, na renda, no sexo, na raça, no estado de residência, os votos em eleições precedentes, etc. do eleitor.[13] A técnica também pode ser utilizada na engenharia, especialmente para predizer a probabilidade de falha em um dado processo, sistema ou produto.[14][15] Ela também é utilizada em marketing na previsão da propensão de um cliente para comprar um produto, interromper a assinatura de um serviço, etc.[16] Em economia ela pode ser utilizada para prever a probabilidade de uma pessoa estar trabalhando, de um proprietário optar por uma hipoteca. Campos aleatórios condicionais, uma extensão da regressão logística ao dados seqüênciais, são utilizados em processamento de linguagem natural.
Descrição
A regressão logística analisa dados distribuídos binomialmente da forma
onde os números de ensaios de Bernoullini são conhecidos e as probabilidades de êxito pi são desconhecidas. Um exemplo desta distribuição é a percentagem de sementes (pi) que germinam depois de ni serem plantadas.
O modelo é então obtido na base de que cada ensaio (valor de i) e o conjunto de variáveis explicativas/independentes possa informar acerca da probabilidade final. Estas variáveis explicativas podem-se ver como um vector Xik-dimensional e o modelo toma então a forma
Os logits das probabilidades binomiais desconhecidas (i.e., os logaritmos dos odds) são modelados como uma função linear dos Xi.
Note-se que um elemento particular de Xi pode ser ajustado a 1 para todo o i obtendo-se um intercepto no modelo. Os parâmetros desconhecidos βj são habitualmente estimados através de máxima verossimilhança.
A interpretação dos valores estimados do parâmetro βj é similar aos efeitos aditivos em log odds ratio para uma unidade de mudança na jésima variável explicativa. No caso de uma variável explicativa dicotómica, por exemplo o género, é o estimador de odds ratio de ter o resultado para, por exemplo, homens comparados com mulheres.
O modelo tem uma formulação equivalente dada por
Esta forma funcional é habitualmente identificada como um perceptron (ou perceptrão em português europeu) de uma camada simples ou rede neuronal artificial de uma só camada. Uma rede neuronal de uma só camada calcula uma saída contínua em vez de uma função por troços. A derivada de pi em relação a X = x1...xk é calculada na forma geral:
onde f(X) é uma função analítica em X. Com esta escolha, a rede de camada simples é idêntica ao modelo de regressão logística. Esta função tem uma derivada contínua, a qual permite ser usada na propagação para trás. Esta função também é preferida pois a sua derivada é facilmente calculável:
Extensões
Existem diversas extensões do modelo para tratar variáveis dependentes multicategóricas e/ou ordinais, tais como a regressão politómica. A classificação em várias classes por regressão logística é conhecida como logit multinomial. Uma extensão do modelo logístico para ajustar conjuntos de variáveis independentes é o campo aleatório condicional.
Exemplo
Seja p(x) a probabilidade de êxito quando o valor da variável preditiva é x. Então, seja
↑Boyd, C. R.; Tolson, M. A.; Copes, W. S. (1987). «Evaluating trauma care: The TRISS method. Trauma Score and the Injury Severity Score». The Journal of Trauma. 27 (4): 370–378. PMID3106646. doi:10.1097/00005373-198704000-00005
↑Kologlu, M.; Elker, D.; Altun, H.; Sayek, I. (2001). «Validation of MPI and PIA II in two different groups of patients with secondary peritonitis». Hepato-Gastroenterology. 48 (37): 147–51. PMID11268952
↑Biondo, S.; Ramos, E.; Deiros, M.; Ragué, J. M.; De Oca, J.; Moreno, P.; Farran, L.; Jaurrieta, E. (2000). «Prognostic factors for mortality in left colonic peritonitis: A new scoring system». Journal of the American College of Surgeons. 191 (6): 635–42. PMID11129812. doi:10.1016/S1072-7515(00)00758-4
↑Marshall, J. C.; Cook, D. J.; Christou, N. V.; Bernard, G. R.; Sprung, C. L.; Sibbald, W. J. (1995). «Multiple organ dysfunction score: A reliable descriptor of a complex clinical outcome». Critical Care Medicine. 23 (10): 1638–52. PMID7587228. doi:10.1097/00003246-199510000-00007
↑Le Gall, J. R.; Lemeshow, S.; Saulnier, F. (1993). «A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study». JAMA. 270 (24): 2957–63. PMID8254858. doi:10.1001/jama.1993.03510240069035
↑Truett, J; Cornfield, J; Kannel, W (1967). «A multivariate analysis of the risk of coronary heart disease in Framingham». Journal of Chronic Diseases. 20 (7): 511–24. PMID6028270. doi:10.1016/0021-9681(67)90082-3
↑Harrell, Frank E. (2001). Regression Modeling Strategies 2nd ed. [S.l.]: Springer-Verlag. ISBN978-0-387-95232-1
↑M. Strano; B.M. Colosimo (2006). «Logistic regression analysis for experimental determination of forming limit diagrams». International Journal of Machine Tools and Manufacture. 46 (6): 673–682. doi:10.1016/j.ijmachtools.2005.07.005
↑Palei, S. K.; Das, S. K. (2009). «Logistic regression model for prediction of roof fall risks in bord and pillar workings in coal mines: An approach». Safety Science. 47: 88–96. doi:10.1016/j.ssci.2008.01.002
↑Berry, Michael J.A (1997). Data Mining Techniques For Marketing, Sales and Customer Support. [S.l.]: Wiley. 10 páginas
Fontes
Agresti, Alan. (2002). Categorical Data Analysis. [S.l.]: New York: Wiley-Interscience. ISBN0-471-36093-7
Amemiya, T. (1985). Advanced Econometrics. [S.l.]: Harvard University Press. ISBN0-674-00560-0
Balakrishnan, N. (1991). Handbook of the Logistic Distribution. [S.l.]: Marcel Dekker, Inc. ISBN978-0824785871
Green, William H. (2003). Econometric Analysis, fifth edition. [S.l.]: Prentice Hall. ISBN0-13-066189-9
Hosmer, David W.; Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed. [S.l.]: New York; Chichester, Wiley. ISBN0-471-35632-8A referência emprega parâmetros obsoletos |coautor= (ajuda)