Ложная зависимость

Влияние количества пиратов на глобальное потепление

Ложная зависимость или ложная корреляция в статистике — это математическая зависимость, в которой два или более события или переменные связаны, но не причинно, а вследствие совпадения, или из-за наличия определенного третьего, скрытого фактора, называемого «общей переменной отклика», «спутывающим фактором» или «скрытой переменной»[1].

Примеры

Примеры ложной зависимости можно найти в литературе по временным рядам, где ложная регрессия — это регрессия, которая дает вводящие в заблуждение статистические доказательства линейной взаимосвязи между независимыми нестационарными переменными[2]. На самом деле нестационарность может быть обусловлена наличием единичного корня в обеих переменных[3]. В частности, любые две номинальные экономические переменные, вероятно, будут коррелировать друг с другом, даже если ни одна из них не оказывает причинного влияния на другую, поскольку каждая из них равна реальной переменной, умноженной на уровень цен, и общее присутствие уровня цен в двух рядах данных придает им корреляцию.

Другой пример ложной зависимости можно увидеть, изучив взаимосвязь продаж мороженого в городе с количеством утоплений. Продажи могут быть самыми высокими, когда число утоплений в городских бассейнах наибольшее. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы предполагать ложную связь между ними. В действительности жара могла вызвать и то, и другое. Жара является примером скрытой или невидимой смешивающей переменной.

Ещё одним широко известным примером является ряд статистических данных, показывающих положительную корреляцию между числом аистов, гнездящихся в ряде источников, и числом человеческих младенцев, родившихся в это время. Конечно, причинно-следственной связи не было; они были соотнесены друг с другом только потому, что были соотнесены с погодой за девять месяцев до наблюдений[4]. Однако исследования показали, что корреляция была сильнее, чем просто погодные колебания. Хотя количество клинических родов не было связано с ростом популяции аистов, внебольничные роды коррелировали с популяцией аистов[5].

В редких случаях ложная зависимость может возникать между двумя совершенно не связанными переменными без какой-либо смешивающей переменной. Самые известные примеры — победы команды по американскому футболу «Вашингтон Редскинз» в конкретной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах[6]. В течение 16 последовательных выборов между 1940 и 2000 годами «Правило Редскинз» предсказывало, сохранит или потеряет президентство политическая партия действующего президента. Это правило в конечном итоге было нарушено вскоре после того, как Спортивное бюро Элиаса обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры «Редскинз» и результаты выборов не совпадали[7].

Проверка гипотез

Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее принимают решение отклонить гипотезу, если корреляция, вычисленная из выборки данных, имела бы место менее чем в 5 % выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95 % случаев, остальные 5 % случаев, имеющих истинный нуль без корреляции, нулевая корреляция будет ошибочно отклонена, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка первого рода). В данном примере ложная корреляция в выборке была результатом случайного отбора выборки, которая не отражает истинных свойств генеральной совокупности.

Обнаружение ложной зависимости

Термин «ложная зависимость» широко используется в статистике и, в частности, в методах экспериментальных исследований, которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает и то и другое (W → X и W → Y). Переменные-посредники (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без поправки на переменную-посредник M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственных связей, если только не исключаются ложные зависимости.

Эксперименты

В экспериментах ложную зависимость часто можно выявить, контролируя другие факторы, в том числе те, которые были теоретически идентифицированы как возможные смешивающие факторы. Например, когда исследователь пытается определить, убивает ли новый препарат бактерии; он применяет препарат к бактериальной культуре, бактерии погибают. Но для того, чтобы исключить наличие смешивающей переменной, другая культура помещается в условия, максимально близкие к тем, с которыми сталкивается первая, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый мешающий фактор, эта контрольная культура также погибнет, так что из результатов первой культуры нельзя будет сделать никакого заключения об эффективности препарата. С другой стороны, если контрольная культура не погибает, то исследователь не может отвергнуть гипотезу об эффективности препарата.

Неэкспериментальный статистический анализ

Дисциплины, данные которых в основном не являются экспериментальными, такие как экономика, обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой. Основным статистическим методом в эконометрике является многомерный регрессионный анализ. Как правило, предполагается линейная зависимость вида , в которой зависимая переменная, для j = 1, ...,k независимая переменная, а - член ошибки (содержащий совокупные эффекты всех других причинных переменных, которые не должны коррелировать с включенными независимыми переменными). Если есть основания полагать, что ни один из не вызван , то получаются оценки коэффициентов . Если нулевая гипотеза о том, что отвергается, то альтернативная гипотеза о том, что , эквивалентная тому, что определяет , не может быть отвергнута. С другой стороны, если нулевая гипотеза о том, что не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на не может быть отвергнута.

Если истинное значение , то изменение приведет к изменению , если только какая-либо другая причинная переменная, включенная в регрессию или неявная в слагаемом ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение недостаточно для изменения . Аналогично, изменение не обязательно для изменения , потому что изменение может быть вызвано чем-то неявным в слагаемом ошибки (или какой-то другой причинной объясняющей переменной, включенной в модель).

Регрессионный анализ контролирует другие релевантные переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинности из-за наличия третьей, лежащей в основе переменной, которая влияет как на потенциально причинную переменную, так и на потенциально зависимую переменную: ее влияние на потенциально зависимую переменную фиксируется прямым включением ее в регрессию, так что эффект не будет воспринят как паразитный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x1 (например, x1 → x2 → y) является прямым эффектом (x1 → y). Таким образом, модель множественной регрессии должна контролировать все смешивающие факторы, включая их в себя как регрессоры. Если в регрессии отсутствует смешивающий фактор, его влияние по умолчанию фиксируется в слагаемом ошибки, и если результирующий термин ошибки коррелирует с одним или несколькими из включенных регрессоров, то оценочная регрессия может быть смещенной или несогласованной.

В дополнение к регрессионному анализу данные могут быть исследованы на наличие причинно-следственной связи Грейнджера. Наличие причинности Грейнджера указывает как на то, что x предшествует y, так и на то, что x содержит уникальную информацию об y.

См. также

Примечания

  1. Spurious Correlations. web.archive.org (25 сентября 2019). Дата обращения: 17 февраля 2021. Архивировано 25 сентября 2019 года.
  2. G. Yule. Why do we Sometimes get Nonsense-Correlations between Time-Series?--A Study in Sampling and the Nature of Time-Series. — doi:10.2307/2341482. Архивировано 11 февраля 2021 года.
  3. C. W. J. (Clive William John) Granger. Essays in econometrics : collected papers of Clive W.J. Granger. — New York : Cambridge University Press, 2001. — 550 с. — ISBN 978-0-521-77496-3, 978-0-521-79649-1, 978-0-521-79697-2.
  4. Sapsford, Roger; Jupp, Victor, eds. (2006). Data Collection and Analysis. Sage. ISBN 0-7619-4362-5.
  5. Höfer, Thomas; Hildegard Przyrembel; Silvia Verleger (2004). «New evidence for the Theory of the Stork» Архивная копия от 11 апреля 2019 на Wayback Machine. Paediatric and Perinatal Epidemiology. 18 (1): 18-22.
  6. 'Redskins Rule': MNF's Hirdt on intersection of football & politics (амер. англ.). ESPN Front Row (30 октября 2012). Дата обращения: 17 февраля 2021. Архивировано 2 марта 2021 года.
  7. Rob Manker, Chicago Tribune reporter. Redskins Rule: Barack Obama's victory over Mitt Romney tackles presidential predictor for its first loss (амер. англ.). chicagotribune.com. Дата обращения: 17 февраля 2021. Архивировано 17 июля 2021 года.