Преобразование данных (статистика)

Диаграмма рассеяния в которой площади суверенных государств и зависимых территорий в мире отложены по вертикальной оси относительно популяции этих стран, отложенных по горизонтальной оси. Верхний график использует сырые данные. На нижнем графике площади и популяции преобразованы с помощью логарифмической функции.

Преобразование данных — это применение детерминированной математической функции к каждой точке множества данных, то есть каждая точка данных zi заменяется преобразованным значением , где f — функция. Преобразования обычно применяются так, что данные больше подходят для процедуры статистического вывода, которую хотят применять, для улучшения интерпретируемости или для графического[англ.] представления.

Почти всегда функция, которая применяется для преобразования данных, обратима, и обычно является непрерывной. Преобразование обычно применяется к коллекции сравнимых показателей. Например, если мы работаем с данными по доходам людей в некоторой валюте, обычно преобразуется доход каждого человека с помощью логарифмической функции.

Мотивировка

Руководство, как данные следует преобразовать или следует ли их вообще преобразовывать, должно проистекать из конкретного статистического анализа. Например, простой путь для построения примерно 95 % доверительного интервала для математического ожидания популяции — взять среднее арифметическое плюс-минус две стандартные ошибки. Однако постоянный множитель 2, используемый здесь, относится к нормальному распределению и применим, только если среднее арифметическое варьируется примерно по нормальному закону. Центральная предельная теорема утверждает, что во многих ситуациях среднее арифметическое варьируется по нормальному закону, если размер выборки достаточно велик. Однако, если совокупность существенно асимметрична, а размер выборки умеренный, аппроксимация, даваемая центральной предельной теоремой, может быть плохой, а получающийся доверительный интервал, скорее всего, будет иметь неверный уровень доверия[англ.]. Тогда, в случае, когда имеется доказательство о существенной асимметрии данных, обычно данные преобразуются к симметричному распределению перед построением доверительного интервала. Если есть необходимость, доверительный интервал может быть преобразован обратно к исходному масштабу, используя обратное к используемому для преобразования данных.

Данные могут быть также преобразованы для облегчения визуализации. Например, предположим, что мы имеем диаграмму рассеяния, в которой точками являются страны мира, а значения данных, отражённые на графике, отражают площадь и популяцию каждой страны. Если график сделан из непреобразованных данных (например, квадратных километров для площади и число людей в популяции), большинство стран окажутся в плотном кластере в нижнем левом углу графика. Некоторые страны с очень большой площадью и/или популяцией будут распределены жидко по основной площади графика. Простое масштабирование единиц (например, к тысячам квадратных километров или к миллионам людей) не меняет ситуацию. Однако при логарифмическом преобразовании как площади, так и популяции, точки будут распределены на графе более равномерно.

Последней причиной преобразования данных может быть улучшение интерпретируемости, даже если не предполагается никакого формального статистического анализа или визуализации. Например, предположим, что мы сравниваем автомобили в терминах их экономии топлива. Эти данные обычно представляются как «километров на литр» или «миль на галлон». Однако, если целью является определение, сколько дополнительного топлива на человека нужно использовать в год, если использовать один автомобиль по сравнению с другим, более естественно работать с данными, преобразованными с помощью функции 1/x, которая даёт литры на километр или галлоны на милю.

В регрессии

Линейная регрессия — это статистическая техника для связи зависимой переменной Y с более-менее независимыми переменными X. Простейшие модели регрессии выявляют линейную связь между математическим ожиданием Y и каждой независимой переменной (если другие независимые переменные фиксированы). Если линейность не выполняется, даже приближённо, иногда можно преобразовать либо независимые переменные, либо зависимые переменные в регрессионной модели для улучшения линейности.

Другое предположение линейной регрессии — что дисперсия одна и та же для любого возможного математического ожидания (что известно как гомоскедастичность). Одномерная нормальность не нужна, чтобы оценка методом наименьших квадратов параметров регрессии имела смысл (см. статью «Теорема Гаусса — Маркова»). Однако доверительные интервалы и проверка гипотез будут иметь лучшие статистические свойства, если переменные обладают многомерной нормальностью. Это можно получить эмпирически путём графического представления значений по отношению к невязкам[англ.] и рассмотрения графика нормальных квантилей[англ.] невязок. Заметим, неважно, зависимая переменная Y нормально распределена или нет.

Альтернатива

Обобщённые линейные модели (ОЛМ) даёт гибкое обобщение обычной линейной регрессии, что делает возможным выходные переменные, имеющие модели распределения ошибок, отличные от нормального распределения. ОЛМ позволяет линейной модели быть связанными с выходными переменными с помощью функции связи и позволяет величине дисперсии каждого измерения быть функцией расчётной величины.

Примеры

Уравнение:

Значение: Единичное увеличение X связано в среднем с увеличением в b раз значения Y.

Равенство:      (Получается взятием логарифма от обеих частей равенства )

Значение: Единичное увеличение X связано в среднем с увеличением на b% значения Y.

Равенство:

Значение: Увеличение на 1% X связано в среднем с увеличением в b/100 раз значения Y.

Равенство:      (Получается взятием логарифма от обеих частей равенства )

Значение: Увеличение на 1% X связано в среднем с увеличением на b% значения Y.

Общие случаи

Логарифмические преобразования и преобразования к квадратному корню обычно используются для положительных данных, а преобразование к противоположному по умножению (1/x) может быть использовано для ненулевых данных. Степенное преобразование[англ.] является семейством преобразований, параметризованным неотрицательным значением λ, в это семейство входят логарифмическое преобразование, преобразование к квадратному корню и преобразование к обратному значению (1/x) в качестве специальных случаев. Чтобы получить преобразование данных целенаправленно, можно использовать технику статистической оценки для оценки параметра λ в степенном преобразовании, тем самым определяя преобразование, которое наиболее пригодно при заданных условиях. Поскольку семейство степенных преобразований включает также тождественное преобразование, этот подход может также показывать, не лучше ли анализировать данные без преобразования. В регрессионном анализе эта техника известна как техника Бокса-Кокса.

Преобразование к противоположному значению (1/x) и некоторые степенные преобразования могут быть с успехом применено к данным, которые содержат как положительные, так и отрицательные значения (степенное преобразование обратимо для всех вещественных чисел, если λ является нечётным целым числом). Однако, если наблюдаются как положительные, так и отрицательные значения, обычно начинают с добавления ко всем значениям константы для получения набора неотрицательных чисел, к которым можно затем применять любое степенное преобразование. Обычная ситуация, когда преобразование данных применяется, — это когда разброс рассматриваемых значений составляет несколько порядков. Многие физические и социальные явления проявляют такое поведение — доходы, размер популяции, размеры галактик и количество осадков как примеры. Степенное преобразование и, в частности, логарифм, может быть часто использовано для достижения симметрии в таких данных. Логарифм часто предпочтительнее, поскольку легче интерпретировать его результаты в терминах «кратности изменений».

Логарифм имеет также полезное свойство на дробях. Если мы сравниваем положительные значения X и Y используя отношения X / Y, то в случае X < Y отношение попадает на единичный отрезок (0,1), а когда X > Y, отношение попадает на полуось (1,∞), а равенство отношения 1 соответствует равенству величин. В анализе, когда X и Y трактуются симметрично, логарифм отношения log(X / Y) равен нулю в случае равенства и присутствует свойство, что в случае, когда X в K раз больше Y, логарифм отношения одинаково отстоит от нуля от случая, когда Y в K раз больше X (логарифм отношения в этих ситуациях равен log(K) и −log(K)).

Если значения изначально лежат между 0 и 1, не включая граничные значения, то может оказаться подходящим преобразование logit — оно даёт значения в диапазоне (−∞,∞).

Преобразование к нормальному распределению

Не всегда необходимо или желательно преобразовывать набор данных к нормальному распределению. Однако, если симметрия или нормальность желательна, часто это может быть сделано с помощью одного из степенных преобразований.

Для оценки, достигли ли мы нормальности, часто графический подход более информативен, чем формальный статистический тест. Обычно используется для оценки, получили ли мы нормально распределённую совокупность, график нормальных квантилей[англ.]. Альтернативно, используются универсальные правила, основанные на примере асимметрии и эксцесса, когда асимметрия достигает значения от −0.8 до 0.8, а эксцесс лежит в пределах от −3.0 до 3.0.

Преобразование к равномерному или произвольному распределению

Если мы наблюдаем набор из n значений без совпадений (т.е. все n значений различны), мы можем заменить Xi на преобразованное значение , где k определяется так, что Xi является k-ым наибольшим значением среди всех X значений. Это называется преобразованием ранжирования и оно создаёт данные, идеально совместимое с равномерным распределением.

При использовании вероятностного интегрального преобразования[англ.], если X является любой случайной величиной, а F является кумулятивной функцией распределения величины X, то, в случае обратимости F, случайная величина U = F(X) будет удовлетворять однородному распределению на единичном отрезке [0,1].

Однородное распределение мы можем преобразовать к любому распределению с помощью обратимой кумулятивной функцией распределения. Если G является обратимой кумулятивной функцией распределения, а U является равномерно распределённой случайной величиной, то случайная величина имеет G в качестве кумулятивной функции распределения.

То есть, если X является любой случайной величиной, F является обратимой кумулятивной функцией распределения величины X, а G является обратимой кумулятивной функцией распределения, то случайная величина имеет G в качестве кумулятивной функции распределения.

Преобразования, стабилизирующие дисперсию

Многие типы статистических данных обнаруживают связь «дисперсии и среднего», что означает — изменчивость различна для значений данных с различными математическими ожиданиями. В качестве примера, при сравнении различных популяций в мире увеличение дисперсии доходов приводит к увеличению математического ожидания доходов. Если мы рассматриваем число маленьких единиц площади (например, административные округа в Соединённых Штатах Америки) и получим среднее и дисперсию доходов для каждого округа, обычно получим, что округа с большим средним доходом имеют большую дисперсию.

Преобразование, стабилизирующее дисперсию[англ.] нацелено на удаление связи дисперсии и математического ожидания, так что дисперсия становится постоянной относительно среднего. Примерами преобразований, стабилизирующих дисперсию, являются преобразование Фишера[англ.] для выборочного коэффициента корреляции, преобразование к квадратному корню или преобразование Энскома[англ.] для данных, подчиняющихся распределению Пуассона, (дискретные данные), преобразование Бокса-Кокса[англ.] для регрессионного анализа и преобразование к арксинусу от квадратного корня или тригонометрическое преобразование для пропорций (биномиальных данных). Обычно используемый для статистического анализа пропорциональных данных преобразование к арксинусу квадратного корня не рекомендуется, поскольку логистическая регрессия или преобразование logit более пригодны для биномиальных или небиноминальных пропорций соответственно, особенно ввиду уменьшения ошибок типа II[1].

Преобразования для многомерных статистик

Одномерные функции могут быть применены поточечно к многомерным данным для изменения их частных распределений. Возможно также изменение некоторых свойств многомерных распределений с помощью подходящим образом построенных преобразований. Например, при работе с временными рядами и другими типами последовательных данных обычно переходят к конечным разностям данных для улучшения стационарности. Если данные, образованные случайным вектором X, наблюдаются как вектора Xi наблюдения с ковариационной матрицей Σ, может быть использовано линейное отображение для устранения корреляции данных. Чтобы сделать это, используется разложение Холецкого для получения Σ = A A'. Тогда преобразованный вектор имеет единичную матрицу в качестве ковариационной матрицы.

См. также

Примечания

  1. Warton, Hui, 2011, с. 3–10.

Литература

Ссылки

Read other articles:

2006 French filmLe Grand MeaulnesFilm posterDirected byJean-Daniel VerhaegheWritten byAlain-Fournier (novel)Jean CosmosJean-Daniel Verhaeghe (screenplay)Produced byPascal HouzelotStarringNicolas DuvauchelleJean-Baptiste MaunierClémence PoésyJean-Pierre MariellePhilippe TorretonCinematographyYves LafayeEdited byDominique FaysseMusic byPhilippe SardeProductioncompanyMosca FilmDistributed byTFM DistributionRelease date 4 October 2006 (2006-10-04)[1] Running time97 minute...

 

 

Ju 52 JU Air Junkers Ju 52/3m HB/HOS in flight over Austria (July 2013) Jenis Pesawat terbang Pembuat Junkers Perancang Ernst Zindel Penerbangan perdana 13 Oktober 1930 (Ju 52/1m); 7 Maret 1932 (Ju 52/3m) Status Dalam penggunaan terbatas Pengguna utama LuftwaffeLuft HansaAngkatan Udara Spanyol Dibuat 1931–1945 (Jerman)1945–1947 (Prancis)1945–1952 (Spanyol) Jumlah 4,845 Junkers Ju 52 adalah pesawat angkut yang dirancang dan diproduksi oleh perusahaan penerbangan Jerman, Junkers. Pe...

 

 

Chemical compound PramocaineClinical dataTrade namesAnalpram HC, Caladryl, Caladryl Clear, Cortane-B, Epifoam, Gold Bond Maximum Relief, Itch-X, Pramosone, Prax, Proctodan-HC, Proctofoam, Tronolane, Vagisil MedicatedAHFS/Drugs.comInternational Drug NamesMedlinePlusa682429License data US DailyMed: 8bfeea34-25d5-4721-a17f-d9f1d0084cc3, 81ab7fa7-d9b0-49dc-9782-02f37e588c5e Routes ofadministrationTopical, rectal, VaginalATC codeD04AB07 (WHO) C05AD07 (WHO)Legal statusLegal...

Apple Arcade Informations Développé par Apple Première version 19 septembre 2019 Système d'exploitation iOS, iPadOS, tvOS, macOS Environnement Apple TV, macOS, iOS, iPadOS et tvOS Type AbonnementÉditeur de jeux vidéo Site web  https://www.apple.com/fr/apple-arcade/ modifier - modifier le code - voir Wikidata (aide) Apple Arcade est un service d'abonnement aux jeux vidéo proposé par Apple. Il a été lancé le 19 septembre 2019 lors de la présentation annuelle principale d'Apple...

 

 

H.Saan MustopaM.Si. Anggota Dewan Perwakilan RakyatRepublik IndonesiaPetahanaMulai menjabat 1 Oktober 2019Daerah pemilihanJawa Barat VII Informasi pribadiLahir5 Juli 1968 (umur 55)Karawang, Jawa Barat, IndonesiaKebangsaanIndonesiaPartai politikPartai Demokrat (2007–2016)Partai Nasional Demokrat (2016–sekarang)Suami/istriIlah HolilahAlma materUniversitas IndonesiaPekerjaanPolitikusSunting kotak info • L • B Saan Mustopa (lahir 5 Juli 1968[1]) atau kerap dipan...

 

 

Pour les articles homonymes, voir Jean-Jean. Cet article est une ébauche concernant un animateur de radio français. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les pratiques du projet Radio. Éric Jean-JeanÉric Jean-Jean le 14 juillet 2011, au concert pour l'égalité de SOS Racisme.FonctionsAnimateur audiovisuelBiographieNaissance 20 septembre 1967 (56 ans)Blaye (Gironde, France)Nationalité FrançaiseFormation Institut d'études politiques de Bo...

Европейская сардина Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеГруппа:Костные рыбыКласс:Лучепёрые рыбыПодкласс:Новопёры...

 

 

Breast ornament worn in Ancient Egypt Senusret II's pectoral, by 1878 BC. Hieroglyphs: Ankh, Huh (god)-(=millions), Shen ring, scarab, Ra, Water Ripple, Sun-rising hieroglyph, uraeus The pectorals of ancient Egypt were a form of jewelry, often in the form of a brooch. They are often also amulets, and may be so described. They were mostly worn by richer people and the pharaoh. One type is attached with a nah necklace, suspended from the neck and lying on the breast. Statuary from the Old Kingd...

 

 

US college athletic conference Ohio Valley ConferenceAssociationNCAAFounded1948CommissionerBeth DeBauche (since 2009)Sports fielded 20 men's: 9 women's: 10 coeducational: 1 DivisionDivision ISubdivisionFCSNo. of teams11HeadquartersBrentwood, TennesseeRegionMidwest and SouthOfficial websitewww.ovcsports.comLocations UA Little RockEastern IllinoisLindenwoodMorehead StateSEMOSIUEUSITenn StateTenn TechUT MartinWestern Illinoisclass=notpageimage| Ohio Valley Conference The Ohio Valley Conference (...

Pour les articles homonymes, voir Chéret. Jules ChéretJules Chéret photographié par Nadar vers 1900.BiographieNaissance 31 mai 1836Ancien 11e arrondissement de ParisDécès 23 septembre 1932 (à 96 ans)NiceSépulture Cimetière Saint-VincentNom de naissance Jean Jules ChéretNationalité françaiseActivités Lithographe (à partir du 1er juillet 1866), artiste graphique, créateur de bijoux, designer, affichiste, lithographe, peintreFratrie Joseph ChéretAutres informationsMouvement...

 

 

Subgenre of Chinese fantasy fiction A late Ming printed edition of The Three Sui Quash the Demons' RevoltTraditional Chinese神魔小說Simplified Chinese神魔小说TranscriptionsStandard MandarinHanyu Pinyinshénmó xiǎoshuōIPA[ʂə̌nmwǒ ɕjàʊʂwó] Gods and demons fiction or Shenmo fiction (traditional Chinese: 神魔小說; simplified Chinese: 神魔小说; pinyin: shénmó xiǎoshuō) is a subgenre of Chinese fantasy fiction that revolves ar...

 

 

Cet article est une ébauche concernant la Grèce et l’histoire. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Province de l'Epire en orange La révolte épirote de 1854 est un soulèvement nationaliste grec qui éclate en Épire, alors une province ottomane, le pachalik de Ioannina, au moment de la Guerre de Crimée (1853-1856). Cette révolte reçoit un important soutien de l'opinion publique du royaume de...

British-bred Thoroughbred racehorse Night HawkNight Hawk in 1913.SireGallinuleGrandsireIsonomyDamJean's FollyDamsireAyrshireSexStallionFoaled1910[1]CountryUnited Kingdom of Great Britain and IrelandColourBayBreederWilliam Hall WalkerOwnerWilliam Hall WalkerTrainerWilliam Jack RobinsonRecord10: 1-2-1Earnings£6,450[2]Major winsSt Leger (1913) Night Hawk (1910 – after 1924) was an Irish-bred, British-trained Thoroughbred racehorse and sire. He was unraced as a juvenile and...

 

 

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Oktober 2022. Artikel ini perlu dikembangkan agar dapat memenuhi kriteria sebagai entri Wikipedia.Bantulah untuk mengembangkan artikel ini. Jika tidak dikembangkan, artikel ini akan dihapus. Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya ...

 

 

This article details all-time records. For a season-by-season statistical breakdown see List of York City F.C. seasons. Norman Wilkinson, York City's top goalscorer with 143 goals in all competitions York City Football Club is a professional association football club based in York, North Yorkshire, England. The club was founded in 1922 and was elected to the Midland League, which the team played in until 1929 when they were elected to the Football League. The highest level of the English foo...

Eastern Catholic church Not to be confused with the Syro-Malabar Church, another Eastern Catholic body. Syro-Malankara Catholic ChurchOld image of Cathedral of Saint Mary, Pattom, TrivandrumTypeParticular church (sui iuris)ClassificationEastern CatholicOrientationEastern ChristianityScripturePeshitta[1]TheologyCatholic theologyPolityEpiscopal polityPopeFrancisMajor ArchbishopBaselios CleemisParishes1096[citation needed]LiturgyWest Syriac Rite (Malankara Rite)HeadquartersCathed...

 

 

У этого термина существуют и другие значения, см. Свод (значения). Готические своды Сен-Шапель Свод (от «сводить» — соединять, смыкать) — в архитектуре тип перекрытия или покрытия пространства (помещения), ограниченного стенами, балками или столбами — конструкция, к�...

 

 

U.S. House district for Indiana Indiana's 6th congressional districtIndiana's 6th congressional district since January 3, 2023RepresentativeGreg PenceR–ColumbusArea5,550.4 sq mi (14,375 km2)Distribution59.23% urban40.77% ruralPopulation (2022)758,725Median householdincome$69,426[1]Ethnicity81.0% White5.3% Hispanic5.3% Asian4.0% Black3.9% Two or more races0.6% otherCook PVIR+19[2] Indiana's 6th congressional district is a congressional district in the U.S. stat...

First Dibbs ministry21st Cabinet of the Colony of New South Wales Premier George Dibbs and the Colony of New South Wales (1863–1900)Date formed7 October 1885 (1885-10-07)Date dissolved21 December 1885 (1885-12-21)People and organisationsMonarchQueen VictoriaGovernorLord Augustus Loftus / The Lord CarringtonHead of governmentGeorge DibbsNo. of ministers10Member partyunalignedStatus in legislatureMinority governmentOpposition partyunalignedOpposition leaderJohn ...

 

 

この項目では、香港を発端に起こった世界的株価大暴落について説明しています。ブラックフライデーの次の段階については「ウォール街大暴落 (1929年)」をご覧ください。 この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2021年3月) 独自研�...