Метод найменших квадратів — метод знаходження наближеного розв'язку надлишково-визначеної системи. Часто застосовується в регресійному аналізі. На практиці найчастіше використовується лінійний метод найменших квадратів, що використовується у випадку системи лінійних рівнянь. Зокрема важливим застосуванням у цьому випадку є оцінка параметрів у лінійній регресії, що широко застосовується у математичній статистиці і економетриці.
Нехай в результаті деякого досліду отримано чотири ( x , y ) {\displaystyle (x,y)} точки даних: ( 1 , 6 ) , {\displaystyle (1,6),} ( 2 , 5 ) , {\displaystyle (2,5),} ( 3 , 7 ) {\displaystyle (3,7)} і ( 4 , 10 ) {\displaystyle (4,10)} (на малюнку ліворуч позначені червоним). Потрібно знайти пряму y = β β --> 1 + β β --> 2 x {\displaystyle y=\beta _{1}+\beta _{2}x} , яка найкраще підходить для цих точок. Інакше кажучи, ми хотіли б знайти числа β β --> 1 {\displaystyle \beta _{1}} і β β --> 2 {\displaystyle \beta _{2}} , які приблизно розв'язують надвизначену лінійну систему
чотирьох рівнянь з двома невідомими в деякому найкращому сенсі.
Підхід найменших квадратів розв'язання цієї проблеми полягає у спробі зробити якомога меншою суму квадратів похибок між правою і лівою сторонами цієї системи, тобто необхідно знайти мінімум функції
Мінімум визначають через обчислення часткової похідної від S ( β β --> 1 , β β --> 2 ) {\displaystyle S(\beta _{1},\beta _{2})} щодо β β --> 1 {\displaystyle \beta _{1}} і β β --> 2 {\displaystyle \beta _{2}} і прирівнюванням їх до нуля
Це приводить нас до системи з двох рівнянь і двох невідомих, які називаються нормальними рівняннями. Роз'язком СЛАР будуть
звідки отримуємо y = 3.5 + 1.4 x {\displaystyle y=3.5+1.4x} , що є рівнянням прямої, яка проходить найближче до поданих чотирьох точок. Мінімальна сума квадратів похибок є S ( 3.5 , 1.4 ) = 1.1 2 + ( − − --> 1.3 ) 2 + ( − − --> 0.7 ) 2 + 0.9 2 = 4.2. {\displaystyle S(3.5,1.4)=1.1^{2}+(-1.3)^{2}+(-0.7)^{2}+0.9^{2}=4.2.}
Важливо, що у методі лінійних найменших квадратів ми не обмежені використанням прямої як моделі як у попередньому прикладі. Наприклад, ми могли вибрати обмежену квадратичну модель y = β β --> 1 x 2 {\displaystyle y=\beta _{1}x^{2}} .[1] Ця модель все ще лінійна в сенсі параметру β β --> 1 {\displaystyle \beta _{1}} , отже ми все ще можемо здійснювати той самий аналіз, будуючи систему рівнянь з точок даних:
Часткові похідні щодо параметрів (цього разу лише одного) так само обчислюються і прирівнюються до 0:
∂ ∂ --> S ∂ ∂ --> β β --> 1 = 0 = 708 β β --> 1 − − --> 498 {\displaystyle {\frac {\partial S}{\partial \beta _{1}}}=0=708\beta _{1}-498}
Розв'язок отриманого рівняння:
β β --> 1 = 0.703 , {\displaystyle \beta _{1}=0.703,}
що призводить до визначення найбільш підходящої моделі y = 0.703 x 2 {\displaystyle y=0.703x^{2}}
Нехай маємо лінійну регресію зі скалярною змінною x:
а також вибірку початкових даних ( y i , x i ) {\displaystyle (y_{i},x_{i})} розміру M. Тоді
Для надлишково-визначеної системи m лінійних рівнянь з n невідомими β β --> j , ( m > n ) : {\displaystyle \beta _{j},\quad (m>n):}
чи в матричній формі запису:
зазвичай не існує точного розв'язку, і потрібно знайти такі β, які мінімізують наступну норму:
Такий розв'язок завжди існує і він є єдиним:
хоч дана формула не є ефективною через необхідність знаходити обернену матрицю.
Значення S = ∑ ∑ --> i = 1 m | y i − − --> ∑ ∑ --> j = 1 n X i j β β --> j | 2 {\displaystyle S=\sum _{i=1}^{m}\left|y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}\right|^{2}} досягає мінімуму в точці в якій похідна по кожному параметру рівна нулю. Обчислюючи ці похідні одержимо:
де використано позначення r i = y i − − --> ∑ ∑ --> j = 1 n X i j β β --> j . {\displaystyle r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.}
Також виконуються рівності:
Підставляючи вирази для залишків і їх похідних одержимо рівність:
Дану рівність можна звести до вигляду:
або в матричній формі:
Якщо матриця X ⊤ ⊤ --> X {\displaystyle \ X^{\top }X} є невиродженою та додатноозначеною, тобто має повний ранг, тоді система може бути розв'язана за допомогою розкладу Холецького X ⊤ ⊤ --> X = R ⊤ ⊤ --> R {\displaystyle X^{\top }X=R^{\top }R} , де R {\displaystyle R} — верхня трикутна матриця.
Розв'язок отримаємо в два кроки:
В обох випадках використовуються властивості трикутної матриці.
Одним із найважливіших застосувань лінійного МНК є оцінка параметрів лінійної регресії. Для заданого набору даних { y i , x i 1 , … … --> , x i p } i = 1 n {\displaystyle \{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}} будується модель:
де:
В цих формулах β β --> {\displaystyle \beta } — вектор параметрів, які оцінюються, наприклад, за допомогою методу найменших квадратів, а ε ε --> {\displaystyle \varepsilon } — вектор випадкових змінних.
У класичній моделі множинної лінійної регресії приймаються такі умови:
Для такої моделі оцінка β β --> ^ ^ --> {\displaystyle {\hat {\boldsymbol {\beta }}}} одержана методом найменших квадратів володіє властивостями:
Нехай ми маємо вибірку початкових даних f ( x i ) = y i i = 1.. n ¯ ¯ --> {\displaystyle f(x_{i})=y_{i}\ i={\overline {1..n}}} . Функція f {\displaystyle f} — невідома.
Якщо ми знаємо приблизний вигляд функції f ( x ) {\displaystyle f(x)} , то задамо її у вигляді функціоналу F ( x i , a 0 , … … --> , a m ) ≈ ≈ --> y i {\displaystyle F(x_{i},a_{0},\ldots ,a_{m})\approx y_{i}} , де a 0 , … … --> , a m {\displaystyle a_{0},\ldots ,a_{m}} — невідомі константи.
Нам потрібно мінімізувати відмінності між F {\displaystyle F} та f {\displaystyle f} . Для цього беруть за міру суму квадратів різниць значень цих функцій у всіх точках x i {\displaystyle x_{i}} і її мінімізують (тому метод так і називається):
Коефіцієнти a j {\displaystyle a_{j}} в яких така міра мінімальна знаходять з системи:
Lokasi Pengunjung: 18.117.232.216