Линейная регрессия (англ.Linear regression) — используемая в статистикерегрессионная модель зависимости одной (объясняемой, зависимой) переменной от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости.
Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.
где — параметры модели, — случайная ошибка модели; называется линейной регрессией, если функция регрессии имеет вид
,
где — параметры (коэффициенты) регрессии, — регрессоры (факторы модели), k — количество факторов модели[1].
Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):
Параметр , при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:
,
где — вектор регрессоров, — вектор-столбец параметров (коэффициентов).
Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.
Парная и множественная регрессия
В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:
Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:
Примеры
Модель затрат организации (без указания случайной ошибки)
— удельные или средние (на единицу продукции) переменные затраты
— объём производства.
Простейшая модель потребительских расходов (Кейнс)
— потребительские расходы
— располагаемый доход
— «предельная склонность к потреблению»
— автономное (не зависящее от дохода) потребление.
Матричное представление
Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда — значение переменной y в t-м наблюдении, — значение j-го фактора в t-м наблюдении. Соответственно, — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:
Введём обозначения:
— вектор наблюдений зависимой переменой y
— матрица факторов.
— вектор случайных ошибок.
Тогда модель линейной регрессии можно представить в матричной форме:
Классическая линейная регрессия
В классической линейной регрессии предполагается, что наряду со стандартным условием выполнены также следующие предположения (условия Гаусса — Маркова):
Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели:
Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок:
Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица имела полный ранг (), то есть предполагается, что отсутствует полная коллинеарность факторов.