Примеры ложной зависимости можно найти в литературе по временным рядам, где ложная регрессия — это регрессия, которая дает вводящие в заблуждение статистические доказательствалинейной взаимосвязи между независимыми нестационарными переменными[2]. На самом деле нестационарность может быть обусловлена наличием единичного корня в обеих переменных[3]. В частности, любые две номинальные экономические переменные, вероятно, будут коррелировать друг с другом, даже если ни одна из них не оказывает причинного влияния на другую, поскольку каждая из них равна реальной переменной, умноженной на уровень цен, и общее присутствие уровня цен в двух рядах данных придает им корреляцию.
Другой пример ложной зависимости можно увидеть, изучив взаимосвязь продаж мороженого в городе с количеством утоплений. Продажи могут быть самыми высокими, когда число утоплений в городских бассейнах наибольшее. Утверждать, что продажа мороженого вызывает утопление или наоборот, означало бы предполагать ложную связь между ними. В действительности жара могла вызвать и то, и другое. Жара является примером скрытой или невидимой смешивающей переменной.
Ещё одним широко известным примером является ряд статистических данных, показывающих положительную корреляцию между числом аистов, гнездящихся в ряде источников, и числом человеческих младенцев, родившихся в это время. Конечно, причинно-следственной связи не было; они были соотнесены друг с другом только потому, что были соотнесены с погодой за девять месяцев до наблюдений[4]. Однако исследования показали, что корреляция была сильнее, чем просто погодные колебания. Хотя количество клинических родов не было связано с ростом популяции аистов, внебольничные роды коррелировали с популяцией аистов[5].
В редких случаях ложная зависимость может возникать между двумя совершенно не связанными переменными без какой-либо смешивающей переменной. Самые известные примеры — победы команды по американскому футболу «Вашингтон Редскинз» в конкретной игре перед каждыми президентскими выборами и успехом политической партии действующего президента на этих выборах[6]. В течение 16 последовательных выборов между 1940 и 2000 годами «Правило Редскинз» предсказывало, сохранит или потеряет президентство политическая партия действующего президента. Это правило в конечном итоге было нарушено вскоре после того, как Спортивное бюро Элиаса обнаружило корреляцию в 2000 году; в 2004, 2012 и 2016 годах результаты игры «Редскинз» и результаты выборов не совпадали[7].
Проверка гипотез
Часто проверяют нулевую гипотезу об отсутствии корреляции между двумя переменными и заранее принимают решение отклонить гипотезу, если корреляция, вычисленная из выборки данных, имела бы место менее чем в 5 % выборок данных, если бы нулевая гипотеза была верна. В то время как истинная нулевая гипотеза будет принята в 95 % случаев, остальные 5 % случаев, имеющих истинный нуль без корреляции, нулевая корреляция будет ошибочно отклонена, что приведет к принятию корреляции, которая является ложной (событие, известное как ошибка первого рода). В данном примере ложная корреляция в выборке была результатом случайного отбора выборки, которая не отражает истинных свойств генеральной совокупности.
Обнаружение ложной зависимости
Термин «ложная зависимость» широко используется в статистике и, в частности, в методах экспериментальных исследований, которые пытаются понять и предсказать прямые причинно-следственные связи (X → Y). Непричинная корреляция может быть ложно создана антецедентом, который вызывает и то и другое (W → X и W → Y). Переменные-посредники (X → W → Y), если они не обнаружены, оценивают общий эффект, а не прямой эффект без поправки на переменную-посредник M. Из-за этого экспериментально выявленные корреляции не представляют причинно-следственных связей, если только не исключаются ложные зависимости.
Эксперименты
В экспериментах ложную зависимость часто можно выявить, контролируя другие факторы, в том числе те, которые были теоретически идентифицированы как возможные смешивающие факторы. Например, когда исследователь пытается определить, убивает ли новый препарат бактерии; он применяет препарат к бактериальной культуре, бактерии погибают. Но для того, чтобы исключить наличие смешивающей переменной, другая культура помещается в условия, максимально близкие к тем, с которыми сталкивается первая, но вторая культура не подвергается воздействию препарата. Если в этих условиях присутствует невидимый мешающий фактор, эта контрольная культура также погибнет, так что из результатов первой культуры нельзя будет сделать никакого заключения об эффективности препарата. С другой стороны, если контрольная культура не погибает, то исследователь не может отвергнуть гипотезу об эффективности препарата.
Неэкспериментальный статистический анализ
Дисциплины, данные которых в основном не являются экспериментальными, такие как экономика, обычно используют данные наблюдений для установления причинно-следственных связей. Совокупность статистических методов, используемых в экономике, называется эконометрикой. Основным статистическим методом в эконометрике является многомерный регрессионный анализ. Как правило, предполагается линейная зависимость вида , в которой —зависимая переменная, для j = 1, ...,k независимая переменная, а - член ошибки (содержащий совокупные эффекты всех других причинных переменных, которые не должны коррелировать с включенными независимыми переменными). Если есть основания полагать, что ни один из не вызван , то получаются оценки коэффициентов . Если нулевая гипотеза о том, что отвергается, то альтернативная гипотеза о том, что , эквивалентная тому, что определяет , не может быть отвергнута. С другой стороны, если нулевая гипотеза о том, что не может быть отвергнута, то эквивалентно гипотеза об отсутствии причинного эффекта на не может быть отвергнута.
Если истинное значение , то изменение приведет к изменению , если только какая-либо другая причинная переменная, включенная в регрессию или неявная в слагаемом ошибки, не изменится таким образом, чтобы точно компенсировать ее эффект; таким образом, изменение недостаточно для изменения . Аналогично, изменение не обязательно для изменения , потому что изменение может быть вызвано чем-то неявным в слагаемом ошибки (или какой-то другой причинной объясняющей переменной, включенной в модель).
Регрессионный анализ контролирует другие релевантные переменные, включая их в качестве регрессоров (объясняющих переменных). Это помогает избежать ошибочного вывода о причинности из-за наличия третьей, лежащей в основе переменной, которая влияет как на потенциально причинную переменную, так и на потенциально зависимую переменную: ее влияние на потенциально зависимую переменную фиксируется прямым включением ее в регрессию, так что эффект не будет воспринят как паразитный эффект потенциально причинной переменной, представляющей интерес. Кроме того, использование многомерной регрессии помогает избежать ошибочного вывода о том, что косвенный эффект, скажем, x1 (например, x1 → x2 → y) является прямым эффектом (x1 → y). Таким образом, модель множественной регрессии должна контролировать все смешивающие факторы, включая их в себя как регрессоры. Если в регрессии отсутствует смешивающий фактор, его влияние по умолчанию фиксируется в слагаемом ошибки, и если результирующий термин ошибки коррелирует с одним или несколькими из включенных регрессоров, то оценочная регрессия может быть смещенной или несогласованной.
В дополнение к регрессионному анализу данные могут быть исследованы на наличие причинно-следственной связи Грейнджера. Наличие причинности Грейнджера указывает как на то, что x предшествует y, так и на то, что x содержит уникальную информацию об y.