PROFILPELAJAR.COM

Распределение $\chi ^{2}$ . Распределение Пирсона
Распределение . Распределение Пирсона
	Плотность вероятности
	Функция распределения
Обозначение	или
Параметры	— число степеней свободы
Носитель
Плотность вероятности
Функция распределения
Математическое ожидание
Медиана	примерно
Мода	0 для ; если
Дисперсия
Коэффициент асимметрии
Коэффициент эксцесса
Дифференциальная энтропия
Производящая функция моментов	, если
Характеристическая функция

Распределе́ние $\chi ^{2}$ (хи-квадра́т) с $k$ степеня́ми свобо́ды — распределение суммы квадратов $k$ независимых стандартных нормальных случайных величин.

Определение

Пусть $z_{1},\ldots ,z_{k}$ — совместно независимые стандартные нормальные случайные величины, то есть: $z_{i}\sim N(0,1)$ . Тогда случайная величина

x=z_{1}^{2}+\ldots +z_{k}^{2}

имеет распределение хи-квадрат с $k$ степенями свободы, то есть $x\sim f_{\chi ^{2}(k)}(x)$ , или, если записать по-другому:

x=\sum \limits _{i=1}^{k}z_{i}^{2}\sim \chi ^{2}(k)

.

Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:

f_{\chi ^{2}(k)}(x)\equiv \Gamma \!\left({k \over 2},{2}\right)={\frac {(1/2)^{k \over 2}}{\Gamma \!\left({k \over 2}\right)}}\,x^{{k \over 2}-1}\,e^{-{\frac {x}{2}}}

,

где $\Gamma \!\left({k/2},2\right)$ означает гамма-распределение, а $\Gamma \!\left({k/2}\right)$ — гамма-функцию.

Функция распределения имеет следующий вид:

F_{\chi ^{2}(k)}(x)={\frac {\gamma \left({k \over 2},{x \over 2}\right)}{\Gamma \left({k \over 2}\right)}}

,

где $\Gamma$ и $\gamma$ обозначают соответственно полную и нижнюю неполную гамма-функции.

Свойства распределения хи-квадрат

Распределение хи-квадрат устойчиво относительно суммирования. Если $Y_{1},Y_{2}$ независимы, и $Y_{1}\sim \chi ^{2}(k_{1})$ , а $Y_{2}\sim \chi ^{2}(k_{2})$ , то $Y_{1}+Y_{2}\sim \chi ^{2}(k_{1}+k_{2})$ .

Из определения легко получить моменты распределения хи-квадрат. Если $Y\sim \chi ^{2}(k)$ , то

\mathbb {E} [Y]=k

,

\mathrm {D} [Y]=2k

.

В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины $Y\sim \chi ^{2}(k)$ может быть приближено нормальным $Y\approx N(k,2k)$ . Более точно

{\frac {Y-k}{\sqrt {2k}}}\to N(0,1)

по распределению при

k\to \infty

.

Связь с другими распределениями

Если $X_{1},\ldots ,X_{k}$ независимые нормальные случайные величины, то есть: $X_{i}\sim N(\mu ,\sigma ^{2}),\;i=1,\ldots ,k;\;\mu$ известно, то случайная величина

Y=\sum _{i=1}^{k}\left({\frac {X_{i}-\mu }{\sigma }}\right)^{2}

имеет распределение $\chi ^{2}(k)$ .

Если $k=2$ , то распределение хи-квадрат совпадает с экспоненциальным распределением:

\chi ^{2}(2)\equiv \mathrm {Exp} (1/2)

.

Если $X\sim \chi ^{2}(2k)$ , тогда $X\sim \operatorname {Erlang} (k,1/2)$ — распределение Эрланга.
Если $Y_{1}\sim \chi ^{2}(k_{1})$ и $Y_{2}\sim \chi ^{2}(k_{2})$ , то случайная величина

F={\frac {Y_{1}/k_{1}}{Y_{2}/k_{2}}}

имеет распределение Фишера со степенями свободы $(k_{1},k_{2})$ .

$\chi _{k}^{2}\sim {\chi '}_{k}^{2}(0)$ (нецентральное хи-квадрат распределение с параметром нецентральности $\lambda =0$ )
Если $X\sim \chi ^{2}(\nu )\,$ и $c>0\,$ , тогда $cX\sim \Gamma (k=\nu /2,\theta =2c)\,$ . (гамма-распределение)
Если $X\sim \chi _{k}^{2}$ , тогда ${\sqrt {X}}\sim \chi _{k}$ (хи распределение)
Если $X\sim \operatorname {Rayleigh} (1)\,$ (распределение Рэлея), тогда $X^{2}\sim \chi ^{2}(2)\,$
Если $X\sim \operatorname {Maxwell} (1)\,$ (распределение Максвелла), тогда $X^{2}\sim \chi ^{2}(3)\,$
Если $X\sim \chi ^{2}(\nu _{1})\,$ и $Y\sim \chi ^{2}(\nu _{2})\,$ независимы, тогда ${\tfrac {X}{X+Y}}\sim \operatorname {Beta} ({\tfrac {\nu _{1}}{2}},{\tfrac {\nu _{2}}{2}})\,$ — (бета-распределение)
Если $X\sim \operatorname {U} (0,1)\,$ — (равномерное распределение), тогда $-2\log(X)\sim \chi ^{2}(2)\,$
$\chi ^{2}(6)\,$ — преобразование распределения Лапласа
Если $X_{i}\sim \operatorname {Laplace} (\mu ,\beta )\,$ , тогда $\sum _{i=1}^{n}{\frac {2|X_{i}-\mu |}{\beta }}\sim \chi ^{2}(2n)\,$
хи-квадрат распределение — преобразование распределения Парето
t-распределение — преобразование распределения хи-квадрат
t-распределение может быть получено из распределения хи-квадрат и нормального распределения
Если $X_{1}\sim \chi ^{2}(k_{1})$ и $X_{2}\sim \chi ^{2}(k_{2})$ — независимы, тогда $X_{1}+X_{2}\sim \chi ^{2}(k_{1}+k_{2})$ . Если $X_{1}$ и $X_{2}$ не являются независимыми, тогда $X_{1}+X_{2}$ не обязано быть распределено по закону хи-квадрат.

Вариации и обобщение

Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат^[англ.], возникающее в некоторых задачах статистики.

Квантили

Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.

История

Критерий $\chi ^{2}$ был предложен Карлом Пирсоном в 1900 году^[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 10²⁹.

Общее обсуждение критерия $\chi ^{2}$ и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена^[2].

Приложения

Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.

Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:

если $X_{1},...,X_{n}$ — независимые и одинаково распределенные по закону $N(\mu ,\sigma ^{2})$ случайные величины, тогда $\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}\sim \sigma ^{2}\chi _{n-1}^{2}$ , где ${\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.$
В таблице показаны некоторые статистики, основанные на $X_{i}\sim N(\mu _{i},\sigma _{i}^{2}),i=1,...,k$ независимых случайных величин, распределения которых связаны с распределением хи-квадрат:

Название	Статистика
распределение хи-квадрат	$\sum _{i=1}^{k}\left({\frac {X_{i}-\mu _{i}}{\sigma _{i}}}\right)^{2}$
нецентральное распределение хи-квадрат	$\sum _{i=1}^{k}\left({\frac {X_{i}}{\sigma _{i}}}\right)^{2}$
распределение хи	${\sqrt {\sum _{i=1}^{k}\left({\frac {X_{i}-\mu _{i}}{\sigma _{i}}}\right)^{2}}}$
нецентральное распределение хи	${\sqrt {\sum _{i=1}^{k}\left({\frac {X_{i}}{\sigma _{i}}}\right)^{2}}}$

Таблица значений χ² и p-значений

Для любого числа p между 0 и 1 определено p-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение $\chi ^{2}$ . Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.

В таблице даны p-значения для соответствующих значений $\chi ^{2}$ у первых десяти степеней свободы.

Степени свободы (df)	Значение $\chi ^{2}$ ^[3]
1	0,004	0,02	0,06	0,15	0,46	1,07	1,64	2,71	3,84	6,63	10,83
2	0,10	0,21	0,45	0,71	1,39	2,41	3,22	4,61	5,99	9,21	13,82
3	0,35	0,58	1,01	1,42	2,37	3,66	4,64	6,25	7,81	11,34	16,27
4	0,71	1,06	1,65	2,20	3,36	4,88	5,99	7,78	9,49	13,28	18,47
5	1,14	1,61	2,34	3,00	4,35	6,06	7,29	9,24	11,07	15,09	20,52
6	1,63	2,20	3,07	3,83	5,35	7,23	8,56	10,64	12,59	16,81	22,46
7	2,17	2,83	3,82	4,67	6,35	8,38	9,80	12,02	14,07	18,48	24,32
8	2,73	3,49	4,59	5,53	7,34	9,52	11,03	13,36	15,51	20,09	26,12
9	3,32	4,17	5,38	6,39	8,34	10,66	12,24	14,68	16,92	21,67	27,88
10	3,94	4,87	6,18	7,27	9,34	11,78	13,44	15,99	18,31	23,21	29,59
p-значение	0,95	0,90	0,80	0,70	0,50	0,30	0,20	0,10	0,05	0,01	0,001

Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат^[4]. Например, квантиль $\chi ^{2}$ для p = 0,05 и df = 7 дает $\chi ^{2}$ =14,06714 ≈ 14,07, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин $x_{1},...,x_{7}$ при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение $x_{1}^{2}+...+x_{7}^{2}>14{,}07$ можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.

В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь^[5].

См. также

Критерий согласия Пирсона (критерий $\chi ^{2}$ )

Примечания

↑ Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.
↑ Cochran W. G. The $\chi ^{2}$ Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345. Архивировано 10 апреля 2020 года.
↑ Chi-Squared Test Архивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
↑ R Tutorial: Chi-squared Distribution (неопр.). Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.
↑ StatSoft: Таблицы распределений — Хи-квадрат распределение (неопр.). Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.

[1] Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.

[2] Cochran W. G. The $\chi ^{2}$ Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345. Архивировано 10 апреля 2020 года.

[3] Chi-Squared Test Архивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.

[4] R Tutorial: Chi-squared Distribution (неопр.). Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.

[Statsoft-5] StatSoft: Таблицы распределений — Хи-квадрат распределение (неопр.). Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.

[1]

[2]

[3]

[4]

[5]

Распределение хи-квадрат