Екологічна помилка (також помилка екологічного висновування[1] або помилка сукупності) — формальна помилка в інтерпретації статистичних даних, яка виникає, коли висновки про природу індивідів виводяться з висновків про групу, до якої ці індивіди належать. «Екологічна помилка» — це термін, який іноді використовують для опису помилки поділу, яка не є статистичною помилкою. Чотири поширені статистичні екологічні помилки: плутанина між екологічними кореляціями та індивідуальними кореляціями, плутанина між груповим середнім і загальним середнім, парадокс Сімпсона та плутанина між вищим середнім і вищою ймовірністю.
Приклади
Середнє та медіана
Прикладом екологічної помилки є припущення, що середнє значення чисельності населення має просту інтерпретацію при розгляді ймовірностей для окремої людини.
Наприклад, якщо середня оцінка групи більша за нуль, це не означає, що випадкова особа з цієї групи, імовірніше, матиме позитивну оцінку, ніж негативну (поки негативних оцінок більше, ніж позитивних, особа, швидше за все, матиме негативний бал). Подібним чином, якщо визначено, що певна група людей має нижчий середній IQ, ніж генеральна сукупність, було б помилкою робити висновок, що навмання вибраний член групи швидше за все матиме нижчий IQ, ніж середній IQ населення в цілому; також не обов’язково, що випадково обраний член групи швидше за все матиме нижчий IQ, ніж випадково обраний член генеральної сукупності. Математично це випливає з того факту, що розподіл може мати позитивне середнє, але негативну медіану. Ця властивість пов'язана з асиметрією розподілу.
Розглянемо наступний числовий приклад:
Група А: 80% людей отримали 40 балів і 20% з них отримали 95 балів. Середня оцінка – 51 бал.
Група B: 50% людей отримали 45 балів і 50% отримали 55 балів. Середня оцінка – 50 балів.
Якщо ми навмання виберемо двох людей з А і Б, буде 4 можливі результати:
A – 40, B – 45 (B перемагає, ймовірність 40% – 0,8 × 0,5)
A – 40, B – 55 (B перемагає, ймовірність 40% – 0,8 × 0,5)
А – 95, Б – 45 (перемагає А, ймовірність 10% – 0,2 × 0,5)
А – 95, Б – 55 (перемагає А, ймовірність 10% – 0,2 × 0,5)
Хоча група A має вищий середній бал, у 80% випадків випадкова особа з A матиме нижчий бал, ніж випадкова особа з B.
Індивідуальні та сукупні кореляції
Дослідження Еміля Дюркгейма свідчать про те, що в переважно протестантських місцевостях рівень самогубств вищий, ніж у переважно католицьких.[2] За словами Фрідмана[3], ідея про те, що відкриття Дюркгейма пов’язують на індивідуальному рівні релігію людини з ризиком самогубства, є прикладом екологічної помилки. Відносини на рівні групи не характеризують автоматично відносини на рівні особистості.
Так само, навіть якщо на індивідуальному рівні багатство позитивно корелює зі схильністю голосувати за республіканців, ми спостерігаємо, що заможніші штати, як правило, голосують за демократів. Наприклад, у 2004 році кандидат від Республіканської партії Джордж Буш переміг у п'ятнадцяти найбідніших штатах, а кандидат від Демократичної партії Джон Керрі переміг у 9 з 11 найбагатших штатів. Проте 62% виборців із річним доходом понад 200 000 доларів проголосували за Буша, але лише 36% виборців із річним доходом 15 000 доларів або менше проголосували за Буша.[4] Кореляція на сукупному рівні відрізнятиметься від кореляції на індивідуальному рівні, якщо на переваги голосування впливає загальне багатство держави навіть після контролю індивідуального багатства. Цілком можливо, що справжнім рушійним чинником переваги при голосуванні є відносне багатство, яке сприймається самим; можливо, ті, хто вважає себе кращим за своїх сусідів, швидше проголосують за республіканців. У цьому випадку людина з більшою ймовірністю проголосує за республіканців, якщо вона стане багатшою, але вона з більшою ймовірністю проголосує за демократа, якщо багатство її сусіда зросте (що призведе до багатшого штату).
Однак спостережувану різницю у виборчих звичках на основі статків на державному та індивідуальному рівнях також можна пояснити загальною плутаниною між вищими середніми показниками та вищими ймовірностями, як обговорювалося вище. Штати можуть бути заможнішими не тому, що в них проживає більше заможних людей (тобто більше людей із річним доходом понад 200 000 доларів США), а радше тому, що в них проживає невелика кількість надбагатих людей; тоді екологічна помилка є наслідком неправильного припущення, що індивіди в заможніших державах мають більше шансів бути заможними.
Багато прикладів екологічних помилок можна знайти в дослідженнях соціальних мереж, які часто поєднують аналіз і наслідки з різних рівнів. Це було проілюстровано в науковій статті про мережі фермерів на Суматрі. [5]
Парадокс Робінсона
У статті 1950 року Вільяма С. Робінсона було підраховано рівень неписьменності та частку населення, народженого за межами США, для кожного штату та округу Колумбія за даними перепису 1930 року.[6] Він показав, що ці дві цифри були пов'язані з негативною кореляцією -0,53; іншими словами, чим більша частка іммігрантів у державі, тим нижчий середній рівень неписьменності. Однак, коли розглядаються окремі особи, кореляція склала +0,12 (іммігранти були в середньому більш неписьменними, ніж корінні громадяни). Робінсон показав, що негативна кореляція на рівні населення штатів пояснюється тим, що іммігранти, як правило, селяться в штатах, де корінне населення було більш грамотним. Він застеріг від висновків щодо окремих людей на основі популяційних чи «екологічних» даних. У 2011 році було виявлено, що розрахунки Робінсона щодо екологічних кореляцій базуються на неправильних даних державного рівня. Згадане вище співвідношення −0,53 насправді дорівнює −0,46.[7] Стаття Робінсона була основоположною, але термін «екологічна помилка» був введений Селвіном лише в 1958 році. [8]
Формальна проблема
Кореляція сукупних величин (або екологічна кореляція[en]) не дорівнює кореляції окремих величин. Позначимо Xi , Yi дві величини на індивідуальному рівні. Формула для коваріації сукупних величин у групах розміру N є
Коваріація двох сукупних змінних залежить не тільки від коваріації двох змінних в межах одних індивідів, але й від коваріацій змінних між різними індивідами. Іншими словами, кореляція сукупних змінних враховує перехресні ефекти, які не мають значення на індивідуальному рівні.
Проблема кореляції, природно, тягне за собою проблему регресії сукупних змінних: отже, помилка кореляції є важливою проблемою для дослідника, який хоче виміряти причинно-наслідкові наслідки. Починаючи з регресійної моделі, де результат зазнає впливу
Регресійна модель на сукупному рівні отримується шляхом підсумовування окремих рівнянь:
Ніщо не заважає корелювати регресори та помилки на сукупному рівні. Тому, як правило, виконання регресії на сукупних даних не оцінює ту саму модель, ніж виконання регресії на окремих даних.
Агрегована модель правильна тоді і тільки тоді
для всіх i. Це означає, що контроль за , не визначає .
Вибір між сукупним та індивідуальним висновком
Немає нічого поганого в тому, щоб виконувати регресії на зведених даних, якщо вас цікавить зведена модель. Наприклад, для губернатора штату правильно проводити регресію між поліцейськими силами щодо рівня злочинності на рівні штату, якщо хтось зацікавлений у політичних наслідках збільшення поліції. Однак екологічна помилка станеться, якщо міська рада виведе вплив збільшення поліції на рівень злочинності на рівні міста з кореляції на рівні штату.
Вибір виконання сукупної або індивідуальної регресії для розуміння сукупного впливу на певну політику залежить від наступного компромісу: сукупні регресії втрачають дані індивідуального рівня, але індивідуальні регресії додають сильні припущення моделювання. Деякі дослідники припускають, що екологічна кореляція дає краще уявлення про результат дій державної політики, тому вони рекомендують для цієї мети екологічну кореляцію замість кореляції індивідуального рівня (Lubinski & Humphreys, 1996). Інші дослідники не погоджуються, особливо коли зв’язки між рівнями не чітко змодельовані. Щоб запобігти екологічній помилці, дослідники, які не мають індивідуальних даних, можуть спочатку змоделювати те, що відбувається на індивідуальному рівні, потім змоделювати, як пов’язані індивідуальний і груповий рівні, і, нарешті, перевірити, чи щось, що відбувається на рівні групи, додає до розуміння взаємозв’язку. Наприклад, при оцінці впливу державної політики корисно знати, що вплив політики відрізняється між державами менше, ніж сама політика, що свідчить про те, що відмінності в політиці не втілюються в результати, незважаючи на високі екологічні кореляції (Rose, 1973). ).
Групові та загальні середні
Екологічна помилка також може стосуватися такої помилки: середнє значення для групи приблизно дорівнює середньому значенню загальної популяції, поділеному на розмір групи. Припустімо, відома кількість протестантів і рівень самогубств у США, але немає даних, які б пов’язували релігію та самогубства на індивідуальному рівні. Якщо когось цікавить рівень самогубств серед протестантів, то буде помилкою оцінювати його загальним рівнем самогубств, поділеним на кількість протестантів. Формально познач середнє значення групи, ми загалом маємо:
Вражаючою екологічною помилкою є парадокс Сімпсона : той факт, що при порівнянні двох популяцій, розділених на групи, середнє значення деякої змінної в першій популяції може бути вищим у кожній групі і водночас нижчим у загальній популяції. Формально, коли кожне значення Z належить до іншої групи, а X належить до певного лікування, може статися так
Коли не залежить від , парадокс Сімпсона — це саме упередження пропущеної змінної[en] для регресії Y на X, де регресор є фіктивною змінною[en] та пропущеною змінною є категоріальною змінною, що визначає групи для кожного значення, яке вона приймає. Застосування вражає тим, що зсув досить високий, щоб параметри мали протилежні знаки.
Юридичні застосування
Екологічна помилка обговорювалася під час судового оскарження виборів губернатора Вашингтона у 2004 році[en], під час яких було виявлено кілька нелегальних виборців після виборів; їхні голоси були невідомі, оскільки голосування було таємним. Претенденти стверджували, що незаконні голоси, подані на виборах, відповідали б моделям голосування на дільницях, на яких вони були подані, і, отже, слід внести відповідні корективи.[9] Свідок-експерт сказав, що цей підхід схожий на спробу визначити середній показник відбивань Ічіро Сузукі, дивлячись на середній показник відбивань усієї команди Seattle Mariners, оскільки незаконні голоси були віддані нерепрезентативною вибіркою виборців кожного округу, і це може бути як відрізнявся від середнього виборця на дільниці, як Ічіро відрізнявся від решти своєї команди.[10] Суддя визнав, що аргумент претендентів є екологічною помилкою, і відхилив його.[11]
↑Charles Ess; Fay Sudweeks (2001). Culture, technology, communication: towards an intercultural global village. SUNY Press. с. 90. ISBN978-0-7914-5015-4. The problem lies with the 'ecological fallacy' (or fallacy of division)—the impulse to apply group or societal level characteristics to individuals within that group.
↑Durkheim, (1951/1897). Suicide: A study in sociology. Translated by John A. Spaulding and George Simpson. New York: The Free Press. ISBN 0-684-83632-7.
↑Freedman, D. A. (1999). Ecological Inference and the Ecological Fallacy. International Encyclopedia of the Social & Behavioral Sciences, Technical Report No. 549. https://web.stanford.edu/class/ed260/freedman549.pdf