: variables explicativas, independentes ou regresores.
: parámetros, miden a influencia que as variables explicativas teñen sobre o regrediendo.
onde é a intersección ou termo "constante", as son os parámetros respectivos a cada variable independente, e é o número de parámetros independentes que hai que ter en conta na regresión. A regresión linear pode ser contrastada coa regresión non linear.
O termo regresión empregouse por primeira vez no estudo de variablesantropométricas: ao comparar a estatura de pais e fillos, onde resultou que os fillos con pais cunha estatura moi superior ao valor medio, tendían a igualarse a este, mentres que aqueles con pais moi baixos tendían a reducir a súa diferenza respecto á estatura media; é dicir, "regresaban" á media.[2] A constatación empírica desta propiedade viuse reforzada máis tarde coa xustificación teórica do fenómeno.
O termo linear emprégase para distinguilo das demais técnicas de regresión, que utilizan modelos baseados en calquera clase de función matemática. Os modelos lineares son unha explicación simplificada da realidade, moito máis áxiles e cun soporte teórico moito máis extenso por parte da matemática e a estatística.
onde é a perturbaciónaleatoria que recolle todos aqueles factores da realidade non controlables ou observables e que polo tanto se asocian co azar, e é a que confire ao modelo o seu carácter estocástico.
No caso máis sinxelo, cunha soa variable explícita, o hiperplano é unha recta:
O problema da regresión consiste en escoller uns valores determinados para os parámetros descoñecidos , de modo que a ecuación quede completamente especificada.
Para iso precísase dun conxunto de observacións. Nunha observación i-ésima (i= 1,... I) calquera, rexístrase o comportamento simultáneo da variable dependente e as variables explícitas (as perturbacións aleatorias supóñense non observables).
Os valores escollidos como estimadores dos parámetros , son os coeficientes de regresión sen que se poida garantir que coincida n con parámetros reais do proceso xerador. Polo tanto, en
Os valores son estimacións ou erros da perturbación aleatoria.
Hipótese do modelo de regresión linear clásico
Esperanza matemática nula: . Para cada valor de X a perturbación tomará distintos valores de forma aleatoria, pero non tomará
sistematicamente valores positivos ou negativos, senón que se supón que tomará algúns valores maiores que cero e outros menores que cero, de tal forma que o seu valor esperado sexa cero.
Homocedasticidade: para todo t. Todos os termos da perturbación teñen a mesma varianza, que é descoñecida. A dispersión de cada arredor do seu valor esperado é sempre a mesma.
Incorrelación ou independencia: para todo t,s con t distinto de s. As covarianzas entre as distintas perturbacións son nulas, o que quere dicir que non están correlacionadas. Isto implica que o valor da perturbación para calquera observación da mostra non vén influenciado polos valores das perturbacións correspondentes a outras observacións da mostra.
Regresores non estocásticos.
Independencia linear. Non existen relacións lineares exactas entre os regresores.
. Supoñemos que non existen erros de especificación no modelo, nin erros de medida nas variables explicativas.
Normalidade das perturbacións:
Supostos do modelo de regresión linear
Para poder crear un modelo de regresión linear é necesario que se cumpra cos seguintes supostos:[3]
Que a relación entre as variables sexa linear.
Que os erros na medición das variables explicativas sexan independentes entre eles.
A interpretación do parámetro medio é que un incremento en Xi dunha unidade, Yi incrementará en
Regresión linear múltiple
A regresión linear permite traballar cunha variable a nivel de intervalo ou razón. Da mesma forma, é posible analizar a relación entre dúas ou máis variables a través de ecuacións, o que se denomina regresión múltiple ou regresión linear múltiple.
Constantemente na práctica da investigación estatística, atópanse variables que dalgún xeito están relacionadas entre elas, polo que é posible que unha das variables poida relacionarse matematicamente en función doutra ou doutras variables.
A correlación ("r") das rectas determinará a calidade do axuste. Se r é próximo ou igual a 1, o axuste será bo e as predicións realizadas a partir do modelo obtido serán moi fiables (o modelo obtido resulta verdadeiramente representativo); se r é próximo ou igual a 0, tratarase dun axuste malo no que as predicións que se realicen a partir do modelo obtido non serán fiables (o modelo obtido non resulta representativo da realidade). Ambas as rectas de regresión intersécanse nun punto chamado centro de gravidade da distribución.
Aplicacións da regresión linear
Liñas de tendencia
Unha liña de tendencia representa unha tendencia nunha serie de datos obtidos a través dun período longo. Este tipo de liñas pode indicar se un conxunto de datos en particular (como por exemplo, o PBI, o prezo do petróleo ou o valor das accións) aumentaron ou decreceron nun determinado período.[8] Pódese debuxar unha liña de tendencia a simple vista facilmente a partir dun grupo de puntos, pero a súa posición e pendente calcúlase de xeito máis preciso mediante técnicas estatísticas como as regresións lineares. As liñas de tendencia son xeralmente liñas rectas, aínda que algunhas variacións utilizan polinomios de maior grado dependendo da curvatura desexada na liña.
Medicina
En medicina, as primeiras evidencias relacionando a mortalidade con fumar tabaco[9] viñeron de estudos que empregaban a regresión linear. Os investigadores inclúen unha gran cantidade de variables na súa análise da regresión nun esforzo por eliminar factores que puidesen producir correlacións espurias.
No caso do tabaquismo, os investigadores incluíron o estado socioeconómico para asegurarse de que os efectos de mortalidade por tabaquismo non sexan un efecto da súa educación ou posición económica. Non obstante, é imposible incluír todas as variables posibles nun estudo de regresión.[10][11] no exemplo do tabaquismo, un hipotéticoxene podería aumentar a mortalidade e aumentar a propensión a adquirir enfermidades relacionadas co consumo de tabaco. Por esta razón, na actualidade as probas controladas aleatorias son consideradas moito máis fiables cá análise da regresión.
Informática
Exemplo dunha rutina que emprega unha recta de regresión linear para proxectar un valor futuro:
Código escrito en PHP
<?php//Licencia: GNU/GPL$xarray=array(1,2,3,4,5);//Dias$yarray=array(5,5,5,6.8,9);//Porcentaxe de execucion$pm=100;//Valor futuro$x2=0;$y=0;$x=0;$xy=0;$cantidade=count($xarray);for($i=0;$i<$cantidade;$i++){//Tabla de datosprint($xarray[$i]." ---- ".$yarray[$i]."<br/>");//Calculo de terminos$x2+=$xarray[$i]*$xarray[$i];$y+=$yarray[$i];$x+=$xarray[$i];$xy+=$xarray[$i]*$yarray[$i];}//Coeficiente parcial de regresion$b=($cantidade*$xy-$x*$y)/($cantidade*$x2-$x*$x);//Calculo do intercepto$a=($y-$b*$x)/$cantidade;//Recta tendencial//y=a+bx//Proxeccion en dias para un 100% da execucion:if($b!=0)$dias_proxectados=($pm-$a)/$b;else$dias_proxectados=999999;//Infinitos$dp=round($dias_proxectados,0);if($dp<=$pm)print$dp."---> Culmina antes dos $pm dias <br/>";if($dp>$pm)print$dp."---> ALARMA: non culmina antes dos $pm dias <br/>";?>
Notas
↑C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
↑Doll R, Peto r, Wheatley K, Gray R et al. Mortality in relation to smoking: 40 years' observations on male British doctors . BMJ 1994;309:901-911 (8 de outubro)]
Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. México. ISBN 970-686-457-1.
Walpole, Ronald E.; Raymond H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Pretice-Hall Hispanoamericana, S.A. México. ISBN 970-17-0264-6.
Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. México. ISBN 968-451-856-0.