Распределение хи-квадрат

Распределение . Распределение Пирсона
Плотность вероятности
Функция распределения
Обозначение или
Параметры — число степеней свободы
Носитель
Плотность вероятности
Функция распределения
Математическое ожидание
Медиана примерно
Мода 0 для
если
Дисперсия
Коэффициент асимметрии
Коэффициент эксцесса
Дифференциальная энтропия

Производящая функция моментов , если
Характеристическая функция

Распределе́ние (хи-квадра́т) с степеня́ми свобо́ды — распределение суммы квадратов независимых стандартных нормальных случайных величин.

Определение

Пусть  — совместно независимые стандартные нормальные случайные величины, то есть: . Тогда случайная величина

имеет распределение хи-квадрат с степенями свободы, то есть , или, если записать по-другому:

.

Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:

,

где означает гамма-распределение, а  — гамма-функцию.

Функция распределения имеет следующий вид:

,

где и обозначают соответственно полную и нижнюю неполную гамма-функции.

Свойства распределения хи-квадрат

  • Распределение хи-квадрат устойчиво относительно суммирования. Если независимы, и , а , то .
  • Из определения легко получить моменты распределения хи-квадрат. Если , то
,
.
  • В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины может быть приближено нормальным . Более точно
по распределению при .

Связь с другими распределениями

  • Если независимые нормальные случайные величины, то есть: известно, то случайная величина

имеет распределение .

.
  • Если , тогда  — распределение Эрланга.
  • Если и , то случайная величина

имеет распределение Фишера со степенями свободы .

  • (нецентральное хи-квадрат распределение с параметром нецентральности )
  • Если и , тогда . (гамма-распределение)
  • Если , тогда (хи распределение)
  • Если (распределение Рэлея), тогда
  • Если (распределение Максвелла), тогда
  • Если и независимы, тогда  — (бета-распределение)
  • Если  — (равномерное распределение), тогда
  •  — преобразование распределения Лапласа
  • Если , тогда
  • хи-квадрат распределение — преобразование распределения Парето
  • t-распределение — преобразование распределения хи-квадрат
  • t-распределение может быть получено из распределения хи-квадрат и нормального распределения
  • Если и  — независимы, тогда . Если и не являются независимыми, тогда не обязано быть распределено по закону хи-квадрат.

Вариации и обобщение

Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат[англ.], возникающее в некоторых задачах статистики.

Квантили

Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.

История

Критерий был предложен Карлом Пирсоном в 1900 году[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.

Общее обсуждение критерия и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена[2].

Приложения

Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.

Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:

  • если  — независимые и одинаково распределенные по закону случайные величины, тогда , где
  • В таблице показаны некоторые статистики, основанные на независимых случайных величин, распределения которых связаны с распределением хи-квадрат:
Название Статистика
распределение хи-квадрат
нецентральное распределение хи-квадрат
распределение хи
нецентральное распределение хи


Таблица значений χ2 и p-значений

Для любого числа p между 0 и 1 определено p-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение . Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.

В таблице даны p-значения для соответствующих значений у первых десяти степеней свободы.

Степени свободы (df) Значение [3]
1 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2,41 3,22 4,61 5,99 9,21 13,82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 11,34 16,27
4 0,71 1,06 1,65 2,20 3,36 4,88 5,99 7,78 9,49 13,28 18,47
5 1,14 1,61 2,34 3,00 4,35 6,06 7,29 9,24 11,07 15,09 20,52
6 1,63 2,20 3,07 3,83 5,35 7,23 8,56 10,64 12,59 16,81 22,46
7 2,17 2,83 3,82 4,67 6,35 8,38 9,80 12,02 14,07 18,48 24,32
8 2,73 3,49 4,59 5,53 7,34 9,52 11,03 13,36 15,51 20,09 26,12
9 3,32 4,17 5,38 6,39 8,34 10,66 12,24 14,68 16,92 21,67 27,88
10 3,94 4,87 6,18 7,27 9,34 11,78 13,44 15,99 18,31 23,21 29,59
p-значение 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат[4]. Например, квантиль для p = 0,05 и df = 7 дает =14,06714 ≈ 14,07, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.

В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь[5].

См. также

Примечания

  1. Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.
  2. Cochran W. G. The Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345. Архивировано 10 апреля 2020 года.
  3. Chi-Squared Test Архивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
  4. R Tutorial: Chi-squared Distribution. Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.
  5. StatSoft: Таблицы распределений — Хи-квадрат распределение. Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.