Похибки та залишки

У статистиці та оптимізації по́хибки (англ. errors) та за́лишки (англ. residuals) є тісно пов'язаними мірами відхилення спостережуваного значення елементу вибірки від його «теоретичного значення», які легко сплутати. Похибка (або збу́рення) спостережуваного значення є відхиленням цього спостережуваного значення від (не спостережуваного) істинного значення досліджуваної величини (наприклад, середнього значення генеральної сукупності), а залишком спостережуваної змінної є різниця між цим спостережуваним значенням та оцінкою значення досліджуваної величини (наприклад, середнім значенням вибірки). Найважливішою ця відмінність є в регресійному аналізі, де вона приводить до поняття стьюдентизованих залишків[en].

Введення

Припустімо, що є ряд спостережень з одновимірного розподілу[en], і ми хочемо оцінити середнє значення цього розподілу (так звану модель зсуву). В цьому випадку похибки є відхиленнями спостережень від середнього значення сукупності, а залишки є відхиленнями спостережень від середнього значення вибірки.

Статистична похибка (або збурення) є величиною, на яку спостереження відрізняється від його математичного сподівання, коли останнє ґрунтується на всій сукупності, з якої було випадково вибрано об'єкт статистичного спостереження. Наприклад, якщо середній зріст в загальній сукупності 21-річних чоловіків є 1.75 метрів, і один випадково вибраний чоловік має зріст 1.80 метрів, то «похибка» є 0.05 метрів; якщо випадково вибраний чоловік має зріст 1.70 метрів, то «похибка» є -0.05 метрів. Математичне сподівання, будучи середнім арифметичним всієї сукупності, є зазвичай неспостережним, і отже статистичну похибку також неможливо спостерігати.

З іншого боку, залишком (або відхиленням допасованості) є спостережувана оцінка неспостережуваної статистичної похибки. Розгляньмо попередній приклад зі зростами чоловіків, і припустімо, що ми маємо випадкову вибірку з n людей. Гарною оцінкою середнього значення сукупності могло би слугувати вибіркове середнє. В такому разі ми маємо:

  • Відмінність зросту кожного чоловіка у вибірці від неспостережуваного середнього значення сукупності є статистичною похибкою, тоді як
  • Відмінність зросту кожного чоловіка у вибірці від спостережуваного середнього значення вибірки є залишком.

Зауважте, що сума залишків у випадковій вибірці обов'язково є нульовою, і тому залишки є обов'язково не незалежними. З іншого боку, статистичні похибки є незалежними, і їхня сума в межах випадкової вибірки майже напевно є ненульовою.

Можна стандартизувати статистичні похибки (особливо нормального розподілу) за z-оцінкою (або «стандартизованою оцінкою»), і стандартизувати залишки за t-статистикою[en], або, загальніше, стьюдентизованими залишками[en].

В одновимірних розподілах

Якщо ми розглядаємо нормально розподілену сукупність із середнім значенням μ та стандартним відхиленням σ, і вибираємо осіб незалежно, то ми маємо

і середнє значення вибірки

є випадковою змінною, розподіленою таким чином:

Тоді статистичні похибки є

а залишки є

Сума квадратів статистичних похибок, поділена на σ2, має розподіл хі-квадрат з n ступенями вільності:

Проте ця величина не є спостережною. З іншого боку, сума квадратів залишків є спостережною. Частка від ділення цієї суми на σ2 має розподіл хі-квадрат з лише n − 1 ступенями вільності:

Ця різниця між n та n − 1 ступенями вільності має наслідком поправку Бесселя для оцінки дисперсії вибірки із сукупності з невідомим середнім значенням та невідомою дисперсією, хоча якщо середнє значення є відомим, то поправка не потрібна.

Зауваження

Примітно, що може бути показано, наприклад, за допомогою теореми Басу[en], що сума квадратів залишків[en] та середнє значення вибірки є незалежними одне від одного. Цей факт, а також наведені вище нормальний та хі-квадратичний розподіли, формують основу обчислень із залученням дробу

який, як правило, називають t-статистикою[en].

Розподіли ймовірності чисельника та знаменника окремо залежать від значення неспостережуваного стандартного розподілу сукупності σ, але σ з'являється як в чисельнику, так і в знаменнику, і скорочується. Це вдача, оскільки це означає, що, незважаючи на те, що ми не знаємо σ, ми знаємо розподіл імовірності цієї частки: вона має t-розподіл Стьюдента з n − 1 ступенями вільності. Отже, ми можемо застосовувати цю частку для знаходження довірчого інтервалу μ.

Регресії

В регресійному аналізі відмінність між похибками та залишками є тонкою та важливою, і приводить до поняття стьюдентизованих залишків[en]. Якщо дано неспостережувану функцію, що ставить у відповідність незалежну змінну до залежної, — скажімо, лінію, — то відхилення спостережень залежної змінної від цієї функції є неспостережуваними похибками. Якщо запустити регресію на якихось даних, то відхилення спостережень залежної змінної від допасованої функції є залишками.

Проте термінологічна різниця проявляється у вираженні середньоквадратичної похибки (СКП, англ. MSE). Середньоквадратична похибка регресії є числом, обчисленим як сума квадратів обчислених залишків, а не неспостережуваних похибок. Якщо цю суму квадратів поділити на n, кількість спостережень, то результатом буде середнє значення квадратичних залишків. Оскільки це є упередженою оцінкою дисперсії неспостережуваних похибок, упередження усувається множенням середнього значення квадратичних залишків на n / df, де df є числом ступенів вільності (n мінус кількість оцінюваних параметрів). Цей метод дає такий точно результат, як і метод із застосуванням середнього значення квадратичних похибок. Крайня формула служить неупередженою оцінкою дисперсії неспостережуваних похибок, і називається середньоквадратичною похибкою.[1]

Інший метод обчислення середнього квадрату похибки при аналізі дисперсії лінійної регресії із застосуванням такого прийому, як застосовується в дисперсійному аналізі (вони однакові, оскільки дисперсійний аналіз є одним з типів регресії), сума квадратів залишків (відома також як сума квадратів похибки) ділиться на ступені вільності (де ступені вільності дорівнюють n-p-1, де p є числом «параметрів», або провісників, що використовуються в моделі, тобто кількістю змінних у рівнянні регресії). Також можна обчислювати середній квадрат моделі діленням суми квадратів моделі мінус ступені вільності, що є просто кількістю параметрів. Тоді значення F може обчислюватися діленням СК(моделі) на СК(похибки), і ми можемо визначати значущість (ось для чого починати з середніх квадратів.).[2]

Тим не менш, через поведінку процесу регресії розподіли залишків у різних точках даних (вхідного масиву) можуть різнитися, навіть якщо самі похибки мають ідентичні розподіли. Конкретно, в лінійній регресії, в якій похибки мають ідентичні розподіли, мінливість залишків входів у середині області визначення буде вищою, ніж мінливість залишків на її краях:[джерело?] лінійна регресія допасовується до крайових точок краще, ніж до середніх. Це відбивається також і на функціях впливу різних точок даних на коефіцієнти регресії: крайові точки мають більший вплив.

Таким чином, для порівняння залишків на різних входах необхідне регулювання залишків очікуваною мінливістю залишків, що називається стюдентизацією. Це особливо важливо у випадку виявлення викидів: великий залишок може бути очікуваним в середині області визначення, але розглядатися як викид на її краях.

Інші застосування слова «похибка» у статистиці

Термін «похибка» при обговоренні в попередніх розділах застосовується в сенсі відхилення значення від гіпотетичного неспостережуваного значення. У статистиці зустрічаються щонайменше два інших застосування, і обидва мають на увазі похибки спостережуваного передбачення:

Середньоквадратична похибка, або середня квадратична похибка (скорочується як СКП, англ. MSE) та кореневе середньоквадратичне відхилення[en] (КСКП, англ. RMSE) розглядають суму, на яку значення, передбачені оцінювачем, відрізняються від оцінюваних значень (зазвичай за межами вибірки, з якої робиться оцінка моделі).

Сума квадратичних похибок (англ. sum of squared errors, SSE або SSe), розглядає залишкову суму квадратів[en] (суму квадратичних залишків) регресії; вона є сумою квадратів відхилень фактичних значень від передбачених в межах вибірки, що застосовується для оцінки. Аналогічно, сума абсолютних похибок (англ. sum of absolute errors, SAE) розглядає суму модулів значень залишків, що мінімізується в підході до регресії методом найменших модулів[en].

Див. також

Примітки

  1. Steel, Robert G. D.; Torrie, James H. (1960). Principles and Procedures of Statistics, with Special Reference to Biological Sciences. McGraw-Hill. с. 288. (англ.)
  2. Zelterman, Daniel (2010). Applied linear models with SAS (вид. [Online-Ausg.].). Cambridge: Cambridge University Press. ISBN 9780521761598. (англ.)

Література

Read other articles:

Capital city of South Australia, Australia This article is about the Australian metropolis. For the local government area, see City of Adelaide. For other uses, see Adelaide (disambiguation). AdelaideTarndanya (Kaurna)[1]South AustraliaAdelaide city centreAdelaide Town HallSt Peter's CathedralGeneral Post OfficeSAHMRI buildingUniversity of South AustraliaElder Park and Adelaide OvalVictoria SquareAdelaideCoordinates34°55′39″S 138°36′00″E / 34.92750°S 13...

 

Bulgarian American psychiatrist In this Bulgarian name, the patronymic is Stoyanov and the family name is Ivanov. Iliyan IvanovBorn (1963-07-18) 18 July 1963 (age 60)Burgas, BulgariaNationalityBulgarian AmericanEducationMedical University of VarnaYears active1996 - currentlyMedical careerProfessionPsychiatristFieldChild and adolescent psychiatryInstitutionsMount Sinai MorningsideAwardsHonorary citizen of Burgas Websitehttps://iliyanivanovmd.com/ Iliyan Stoyanov Ivanov is a Bulga...

 

Peta infrastruktur dan tata guna lahan di Komune La Bourgonce.  = Kawasan perkotaan  = Lahan subur  = Padang rumput  = Lahan pertanaman campuran  = Hutan  = Vegetasi perdu  = Lahan basah  = Anak sungaiLa Bourgonce merupakan sebuah komune di departemen Vosges yang terletak pada sebelah timur laut Prancis. Lihat pula Komune di departemen Vosges Referensi INSEE lbsKomune di departemen Vosges Les Ableuvenettes Ahéville Aingeville Ainvelle Allarmont Ambacou...

تعد فلسفة اللغة العادية منهجية فلسفية ترى أن المشكلات الفلسفية التقليدية متجذرة في سوء الفهم الذي يتطوره الفلاسفة من خلال تشويه أو نسيان ما تقصده الكلمات في الاستخدام اليومي.  «مثل هذه الاستخدامات» الفلسفية «للغة، من هذا المنظور، تخلق المشاكل الفلسفية نفسها التي يتم ت...

 

Radio station in Nashville, Tennessee WSM-FMProgrammingFormatDefunctAffiliationsNBCOwnershipOwnerNational Life and Accident Insurance CompanySister stationsWSM, WSM-TVHistoryFirst air dateMarch 1, 1941 as W47NV[1]Last air dateMarch 15, 1951Former call signsW47NV (1941-1943)Former frequencies44.7 MHz (1941–1946)100.1 MHz (1946–1947)103.3 MHz (1947–1951)Call sign meaningSister station of WSMTechnical informationPower20,000 watts (W47NV)66,000 watts (on 103.3 in 1950)&#...

 

Community based on common ethnic, cultural or political identity For other uses, see Nation (disambiguation). See also: National identity and Nationalism Part of a series onNationalism Nation forming Nationalism in the Middle Ages Anthem Church Colours Emblem Father Flag Epic God Identity Language Myth Sport State Symbol Treasure Core values Allegiance Independence Patriotism Self-determination Solidarity Types African Anarchist Blind Bourgeois Business Welfare Civic American French Irish Com...

Bosio commune di Italia Tempat Negara berdaulatItaliaRegion di ItaliaPiedmontProvinsi di ItaliaProvinsi Alessandria NegaraItalia Ibu kotaBosio PendudukTotal1.038  (2023 )GeografiLuas wilayah67,61 km² [convert: unit tak dikenal]Ketinggian358 m Berbatasan denganCampomorone Casaleggio Boiro Ceranesi Gavi Genova Lerma Masone Mele Parodi Ligure Rossiglione Tagliolo Monferrato Voltaggio Campo Ligure Mornese Carrosio SejarahHari liburpatronal festival Santo pelindungBernardus dari Clairva...

 

U Kyaw Nyeinbahasa Burma: ဦးကျော်ငြိမ်းU Kyaw Nyein di bandara Heho, negara bagian Shan Menteri Dalam Negeri Burma ke-1Masa jabatan4 Januari 1948 – 2 April 1949PresidenSao Shwe ThaikPendahuluJabatan dibentukPenggantiNe WinMenteri Urusan Luar Negeri dan Wakil Perdana MenteriMasa jabatan14 September 1948 – 2 April 1949PresidenSao Shwe ThaikPendahuluU Tin Tut (Menteri Luar Negeri)Bo Let Ya (Wakil Perdana Menteri)PenggantiDr. E Maung (Menteri Lu...

 

Cet article est une ébauche concernant la Serbie et le christianisme orthodoxe. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Éparchie de Buda La cathédrale de la Dormition-de-la-Mère-de-Dieu de Szentendre Informations générales Pays Hongrie République tchèque Église Orthodoxe serbe Rite liturgique Rite byzantin Type de juridiction Éparchie Création Inconnue Affiliation Église orthodoxe serbe Sièg...

此條目可能包含不适用或被曲解的引用资料,部分内容的准确性无法被证實。 (2023年1月5日)请协助校核其中的错误以改善这篇条目。详情请参见条目的讨论页。 各国相关 主題列表 索引 国内生产总值 石油储量 国防预算 武装部队(军事) 官方语言 人口統計 人口密度 生育率 出生率 死亡率 自杀率 谋杀率 失业率 储蓄率 识字率 出口额 进口额 煤产量 发电量 监禁率 死刑 国债 ...

 

American college football season 2013 Washington Huskies footballFight Hunger Bowl championFight Hunger Bowl, W 31–16 vs. BYUConferencePac-12 ConferenceDivisionNorth DivisionRankingAPNo. 25Record9–4 (5–4 Pac-12)Head coachSteve Sarkisian (5th season; regular season)Marques Tuiasosopo (interim; bowl game)Offensive coordinatorEric Kiesau (2nd season)Offensive schemeSpreadDefensive coordinatorJustin Wilcox (2nd season)Base defense3–4Captains Hau'oli Kikah...

 

Ridwan Djoko Leksono Irops Itjen TNI Informasi pribadiLahirIndonesiaAlma materAkademi Angkatan Udara (1991)Karier militerPihak IndonesiaDinas/cabang TNI Angkatan UdaraMasa dinas1991—sekarangPangkat Marsekal Pertama TNISatuanPolisi Militer (POM)Sunting kotak info • L • B Marsekal Pertama TNI Ridwan Djoko Leksono, S.E. seorang perwira tinggi TNI-AU yang sejak 26 Juni 2023 mengemban amanat sebagai Irops Itjen TNI.[1] Djoko, lulusan AAU tahun 1991 yang berasal da...

American adult animated sitcom Jeff & Some AliensGenreComedyCreated bySean DonnellyAlessandro MinoliBased onJeff & Some Aliensby Video LouStarringBrett GelmanAlessandro MinoliCountry of originUnited StatesOriginal languageEnglishNo. of seasons1No. of episodes10ProductionExecutive producersAlexander BulkleyCorey CampodonicoSean DonnellyAlessandro MinoliRunning time22 minutesProduction companiesShadowMachineComedy PartnersOriginal releaseNetworkComedy CentralReleaseJanuary 11 (2017...

 

This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Battle of Maastricht – news · newspapers · books · scholar · JSTOR (September 2014) (Learn how and when to remove this message) Battle of MaastrichtPart of the Western Front of World War IIGerman Panzers in Maastricht (10 May 1940)Date10 May 1940LocationMaastricht, Netherlands, ...

 

Ini adalah nama Tionghoa-Indonesia, marganya adalah Onsu (黄) Ruben OnsuLahirRuben Samuel Onsu15 Agustus 1983 (umur 40)Jakarta, IndonesiaNama lainBensuPekerjaanPemeranpresenterkomedianpenyanyipengusahaproduseryoutuberselebritisTahun aktif1998—sekarangSuami/istriSarwendah ​(m. 2013)​Anak Thalia Putri Onsu Thania Putri Onsu Thanivia Putri Onsu Orang tuaJohanes Abraham Onsu (bapak)Helmiah Chalifah (ibu)KerabatBetrand Peto (anak angkat)Keluarga Ribka...

This article does not cite any sources. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Franciszek Krzyształowicz – news · newspapers · books · scholar · JSTOR (May 2020) (Learn how and when to remove this message) Franciszek Krzyształowicz24th Rector of theUniversity of WarsawIn office1924–1925Preceded byIgnacy Koschembahr-ŁyskowskiSucceeded byStefan Pie�...

 

Il massaggioAutoreÉdouard Debat-Ponsan Data1883 Tecnicaolio su tela Dimensioni127×210 cm UbicazioneMusée des Augustins, Tolosa Il massaggio all'hammam[1] o Il massaggio[2] (Le Massage, scène de Hammam) è un dipinto a olio su tela realizzato dall'artista francese Édouard Debat-Ponsan nel 1883 ed esposto al musée des Augustins di Tolosa.[3] Indice 1 Storia 2 Descrizione 3 Analisi 4 Note 5 Altri progetti Storia Dipinta nel 1883, di ritorno da un viaggio nella ...

 

Questa voce sull'argomento tennisti statunitensi è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Elisabeth MooreNazionalità Stati Uniti Tennis Carriera Singolare1 Vittorie/sconfitte 4 Titoli vinti Miglior ranking Risultati nei tornei del Grande Slam  Australian Open -  Roland Garros -  Wimbledon -  US Open V (1896, 1901, 1903, 1905) Doppio1 Vittorie/sconfitte Titoli vinti 2 Miglior ranking Risultati nei tornei del Grande Slam...

馬術競技におけるスポンサーシップ(一部隠れているが自動車ブランドのメルセデス・ベンツと下部に携帯電話キャリアのモビスター)。 スポンサー(英語: Sponsor)とは、団体、個人、スポーツのチーム、イベント、施設、番組などに対し、金銭や物品、あるいはサービスを提供することにより支援する個人や企業、団体のことである。スポンサー行為は単なる寄付...

 

Commune in Île-de-France, FranceCormeilles-en-ParisisCommuneA view of Cormeilles, seen from the park Coat of armsLocation (in red) within Paris inner and outer suburbsLocation of Cormeilles-en-Parisis Cormeilles-en-ParisisShow map of FranceCormeilles-en-ParisisShow map of Île-de-France (region)Coordinates: 48°58′26″N 2°12′05″E / 48.9739°N 2.2014°E / 48.9739; 2.2014CountryFranceRegionÎle-de-FranceDepartmentVal-d'OiseArrondissementArgenteuilCantonFranconvi...