Стандартная ошибка

Распределение выборок по долям от нуля до трёх выше и ниже несмещённого нормально распределённого значения.

Стандартная ошибка (англ. standard error, сокращённо SE)[1] в математической статистике — статистический параметр, величина, характеризующая выборочное распределение, в частности стандартное отклонение выборочного среднего[2], рассчитанное по выборке размера из генеральной совокупности. Если статистическим показателем является среднее значение по выборке, оно называется стандартной ошибкой среднего значения (SEM)[1]. Стандартная ошибка является ключевым фактором при определении доверительных интервалов.

Выборочное распределение средних значений формируется повторной выборкой из одной и той же совокупности и записи полученных выборочных средних значений. Это формирует распределение различных средних значений, и это распределение имеет свое собственное среднее значение и дисперсию. Математически дисперсия полученного распределения среднего значения выборки равна дисперсии генеральной совокупности, деленной на размер выборки. Это связано с тем, что по мере увеличения размера выборки средние значения выборки всё больше приближаются к среднему значению генеральной совокупности.

В регрессионном анализе термин «стандартная ошибка» относится либо к квадратному корню из приведенного статистического показателя хи-квадрата, либо к стандартной ошибке для конкретного коэффициента регрессии (используемого, например, в доверительных интервалах).

Стандартная ошибка выборочного среднего

Точное значение

Стандартная ошибка выборочного среднего вычисляется по формуле:

где  — величина среднеквадратического отклонения генеральной совокупности, а  — объём выборки.

Так, при попытке оценить среднее значение генеральной совокупности с учётом коэффициента для уменьшения ошибки оценки в два раза требуется собрать в выборке в четыре раза больше данных; для уменьшения в десять раз — в сто раз.

Оценка

Поскольку дисперсия генеральной совокупности, как правило, неизвестна, то оценка стандартной ошибки вычисляется по формуле:

где  — стандартное отклонение случайной величины на основе несмещённой оценки её выборочной дисперсии и  — объём выборки.

Поскольку это всего лишь статистическая оценка истинной «стандартной ошибки», здесь часто можно увидеть другие обозначения, такие как:

или

Точность оценки

Когда размер выборки невелик, использование стандартного отклонения выборки вместо истинного стандартного отклонения генеральной совокупности приведет к систематическому занижению стандартного отклонения генеральной совокупности, а следовательно, и стандартной ошибки. При n = 2 недооценка составляет около 25 %, но при n = 6 — всего 5 %. Джон Гурланда и Рам Трипати привели уравнение для этого эффекта[3]. Роберт Сокал и Джеймс Ролф привели уравнение поправочного коэффициента для небольших выборок с n < 20[4].

Вывод

Стандартная ошибка среднего значения может быть получена из дисперсии суммы независимых случайных величин, учитывая определение дисперсии и некоторые её свойства. Если  — это выборка из n независимых данных из генеральной совокупности со средним значением и стандартным отклонением , то возможно определить общее значение

у которого, согласно формуле Бинайме, будет отклонение

где аппроксимируются стандартные отклонения, то есть неопределённости, самих измерений наилучшим значением стандартного отклонения генеральной совокупности. Среднее значение этих измерений определяется как

.

Тогда дисперсия среднего значения равна

.

Стандартная ошибка — это, по определению, стандартное отклонение от , которое является квадратным корнем из дисперсии:

Для коррелированных случайных величин выборочная дисперсия должна быть вычислена в соответствии с центральной предельной теоремой цепи Маркова.

Распределение Стьюдента, когда значение σ неизвестно

Во многих практических ситуациях истинное значение SE неизвестно, поэтому необходимо использовать распределение, учитывающее разброс возможных значений SE. Если известно, что истинное базовое распределение является гауссовым, хотя и с неизвестным SE, то результирующее оценочное распределение соответствует распределению Стьюдента. Стандартная ошибка — это стандартное отклонение распределения Стьюдента. Данное распределение немного отличается от гауссового и варьируется в зависимости от размера выборки. Небольшие выборки с большей вероятностью занижают стандартное отклонение и имеют среднее значение, отличное от истинного среднего значения популяции, а t-распределение Стьюдента учитывает вероятность этих событий с несколько более тяжелыми хвостами по сравнению с гауссовым. Чтобы оценить стандартную ошибку t-распределения Стьюдента, достаточно использовать выборочное стандартное отклонение «s» вместо σ, и мы могли бы использовать это значение для расчета доверительных интервалов.

Распределение вероятностей Стьюдента хорошо аппроксимируется гауссовым распределением, когда размер выборки превышает 100. Для таких выборок можно использовать последнее распределение, которое намного проще. Кроме того, даже если «истинное» распределение генеральной совокупности неизвестно, предположение о нормальности распределения выборки имеет смысл при разумном размере выборки и при определенных условиях выборки. Если эти условия не выполняются, то использование бутстрэпа для оценки стандартной ошибки часто работает, но требует больших вычислительных затрат.

Допущения и использование

Примером использования SE является вычисление доверительных интервалов для неизвестного среднего значения по совокупности. Если выборочное распределение является нормальным, то среднее значение по выборке, стандартная ошибка и квантили нормального распределения могут быть использованы для вычисления доверительных интервалов для истинного среднего значения по совокупности. Следующие выражения могут быть использованы для расчета верхнего и нижнего 95%-ных доверительных пределов,

Выше лимита в 95 % = и

Ниже лимита в 95 % = .

где равно среднему значению выборки,  — значение стандартной ошибки выборочного среднего, а 1,96 — приблизительное значение точки нормального распределения в 97,5 процентиля.

В частности, стандартная ошибка выборочной статистики (например, среднее значение по выборке) — это фактическое или предполагаемое стандартное отклонение среднего значения по выборке в процессе его получения. Другими словами, это фактическое или предполагаемое стандартное отклонение выборочного распределения выборочной статистики. Обозначение стандартной ошибки может быть любым из SE, SEM (для стандартной ошибки измерения или среднего значения) или SE.

Стандартные ошибки позволяют измерить степень неопределённость значения и часто используются:

  • во многих случаях, когда известна стандартная ошибка нескольких отдельных величин, можно легко вычислить стандартную ошибку некоторой функции величин;
  • когда распределение вероятности значения известно, его можно использовать для вычисления точного доверительного интервала;
  • когда распределение вероятностей неизвестно, для вычисления консервативного доверительного интервала можно использовать неравенства Чебышева или Высочанского-Петунина;
  • поскольку размер выборки стремится к бесконечности, центральная предельная теорема гарантирует, что распределение среднего значения по выборке является асимптотически нормальным.

Стандартная ошибка среднего по сравнению со стандартным отклонением

В научно-технической литературе экспериментальные данные часто суммируются либо с использованием среднего значения и стандартного отклонения выборочных данных, либо среднего значения со стандартной ошибкой. Это часто приводит к путанице в отношении их взаимозаменяемости. Однако среднее значение и стандартное отклонение являются описательной статистикой, в то время как стандартная ошибка среднего описывает процесс случайной выборки. Стандартное отклонение выборочных данных — это описание вариации измерений, в то время как стандартная ошибка среднего — это вероятностное утверждение о том, как размер выборки обеспечит лучшую оценку среднего значения по совокупности в свете центральной предельной теоремы[5].

То есть стандартная ошибка среднего значения по выборке — это оценка того, насколько среднее значение по выборке может отличаться от среднего значения по совокупности, тогда как стандартное отклонение выборки — это степень, в которой отдельные лица в выборке отличаются от среднего значения по выборке[6]. Если стандартное отклонение генеральной совокупности конечно, то стандартная ошибка среднего значения выборки будет стремиться к нулю с увеличением размера выборки, поскольку оценка среднего значения генеральной совокупности будет улучшаться, в то время как стандартное отклонение выборки будет стремиться приблизиться к стандартному отклонению генеральной совокупности по мере увеличения размера выборки.

См. также

Примечания

  1. 1 2 Douglas G Altman, J Martin Bland. Standard deviations and standard errors (англ.) // BMJ. — 2005-10-15. — Vol. 331, iss. 7521. — P. 903. — ISSN 0959-8138. — doi:10.1136/bmj.331.7521.903.
  2. Everitt, B. S. The Cambridge Dictionary of Statistics. — CUP, 2003. — ISBN 978-0-521-81099-9.
  3. John Gurland, Ram C. Tripathi. A Simple Approximation for Unbiased Estimation of the Standard Deviation // The American Statistician. — 1971-10. — Т. 25, вып. 4. — С. 30. — doi:10.2307/2682923. Архивировано 13 августа 2024 года.
  4. Robert R. Sokal, F. James Rohlf. Biometry: the principles and practice of statistics in biological research. — 2d ed. — San Francisco: W. H. Freeman, 1981. — 859 с. — ISBN 978-0-7167-1254-1.
  5. MohiniP Barde, PrajaktJ Barde. What to use to express the variability of data: Standard deviation or standard error of mean? (англ.) // Perspectives in Clinical Research. — 2012. — Vol. 3, iss. 3. — P. 113. — ISSN 2229-3485. — doi:10.4103/2229-3485.100662.
  6. Sylvia Wassertheil-Smoller. Biostatistics and epidemiology: a primer for health professionals. — 2. ed. — New York Berlin Heidelberg: Springer, 1995. — 185 с. — ISBN 978-0-387-94388-6, 978-3-540-94388-4.

Литература

  • Hays, W. Statistics. Cengage Learning, 1994.