Парадокс Симпсона

Парадокс Симпсона для количественных данных: для каждой из групп в отдельности проявляется положительная тенденция ( ,  ), тогда как для их объединения имеет место отрицательная ( ).

Парадокс Симпсона (также Парадокс Юла — Симпсона или парадокс объединения) — явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное. Например, подсчёты по некоторой группе людей могут говорить, что определённое лекарство увеличивает шанс выздоровления, и при этом если разделить группу на две (мужчин и женщин), то оказывается, что это лекарство уменьшает шанс выздоровления в каждой группе.

Это явление было описано Эдвардом Симпсоном[англ.] в 1951 году и Удни Юлом в 1903 году. Название «парадокс Симпсона» впервые предложил Колин Блайт в 1972 году. Однако, так как Симпсон не был первооткрывателем этого эффекта, некоторые авторы используют безличные названия, например, «парадокс объединения».

История открытия парадокса

Первый раз рассматриваемая ситуация отмечена Карлом Пирсоном в статье «Математический вклад в теорию эволюции»[1]. Он рассматривает зависимость признаков разнородных групп лошадей. Удни Юл делает более подробный анализ подобных популяционных изменений, изучая механизмы наследственности. Симпсон рассматривает то, что он называет «любопытным случаем» в нескольких разделах статьи «The Interpretation of Interaction in Contingency Tables»[2]. Симпсон был первым автором, изучавшим это явление с точки зрения статистики. Поэтому впоследствии математик К. Р. Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle»[3] вводит термин «парадокс Симпсона».

Примеры

Пример с фишками

Пусть есть четыре шляпы (две чёрных и две серых), 41 фишка (23 цветных и 18 белых) и два стола (А и Б). Фишки распределены по шляпам следующим образом:

  • В чёрной шляпе на столе А лежат 5 цветных и 6 белых фишек.
  • В серой шляпе на столе А лежат 3 цветные и 4 белые фишки.
  • В чёрной шляпе на столе Б лежат 6 цветных и 3 белых фишки.
  • В серой шляпе на столе Б лежат 9 цветных и 5 белых фишек.

Допустим, что вы хотите вытащить цветную фишку.

Если вы находитесь около стола А, то вероятность извлечь цветную фишку из чёрной шляпы равна 5/11 = 35/77, а из серой шляпы на том же столе — 3/7 = 33/77; таким образом, цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой.

Если вы находитесь около стола Б, то вероятность извлечь цветную фишку из чёрной шляпы равна 6/9 = 84/126, а из серой шляпы — 9/14 = 81/126; таким образом, и здесь цветную фишку больше шансов вытащить из чёрной шляпы, чем из серой.

Допустим теперь, что фишки из двух чёрных шляп сложены в одну чёрную шляпу, а фишки из двух серых шляп — в одну серую шляпу. На первый взгляд, логично было бы предположить, что вероятность вытащить цветную фишку из чёрной шляпы выше, чем из серой. Но это неверно:

  • вероятность вытащить цветную фишку из чёрной шляпы равна 11/20 = 231/420,
  • вероятность вытащить цветную фишку из серой шляпы равна 12/21 = 240/420,

то есть больше шансов извлечь цветную фишку из серой шляпы, чем из чёрной[4].

Пример с камнями

Пусть мы имеем четыре набора камней. Вероятность вытащить чёрный камень из набора № 1 выше, чем из набора № 2. В свою очередь, вероятность вытащить чёрный камень из набора № 3 больше, чем из набора № 4. Объединим набор № 1 с набором № 3 (получим набор I), а набор № 2 — с набором № 4 (набор II). Интуитивно можно ожидать, что вероятность вытащить чёрный камень из набора I будет выше, чем из набора II. Однако в общем случае такое утверждение неверно.

Действительно, пусть  — число чёрных камней в -ом наборе (выборке),  — общее число камней в -ом наборе при . По условию:

Вероятность вытащить чёрный камень из наборов I и II, соответственно:

Выражение для набора I не всегда больше выражения для набора II; то есть может случится, что

Например, при , , , , , , , . Легко проверить, что , , в то время как .

Причины

Причина парадокса заключается в некорректном усреднении двух групп данных с различной долей контрольных наблюдений (нерепрезентативная выборка). Поскольку интуитивно предполагается, что при применении найденных зависимостей доля контрольных будет одинаковой в обеих группах, а в исходных данных это не выполняется, то к ним нельзя применять арифметическое усреднение.

Для устранения проблемы, при усреднении необходимо использовать веса, устраняющие перекос доли контрольных. Так, в примере с фишками доля фишек в серой шляпе на столе А — 7 из 18 (39 %), а на столе Б — 14 из 23 (61 %).

Для репрезентативного усреднения шанса вытянуть цветную фишку достаточно умножить количество фишек обоих цветов в одной из шляп на весовой коэффициент, устраняющий перекос. Например, если вместо одной серой шляпы на столе А поставить две таких же шляпы, то вероятности для каждого стола в отдельности не изменятся, но для объединения столов парадокс будет устранён: вероятность цветной фишки в серой шляпе станет 15/28, то есть меньше, чем из чёрной.

Другой способ разрешения парадокса — использование формулы полной вероятности.

Парадокс Симпсона показывает, что выводы из результатов социологических опросов с нерепрезентативной выборкой нельзя принимать как неопровержимые, доказанные научным путём.

Практическая значимость

Парадокс Симпсона иллюстрирует неправомерность обобщений по нерепрезентативным выборкам, иногда опасных для жизни. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового средства.

Мужчины Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 700 80
Невыздоровевшие 800 130
Соотношение 0.875 0.615
Женщины Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 150 400
Невыздоровевшие 70 280
Соотношение 2.142 1.429

Интуитивно предполагается, что если в обеих группах прослеживается зависимость, она должна проявиться и при объединении этих групп. Но хотя соотношение выздоровевших и больных среди и женщин, и мужчин, принимавших лекарство, больше, чем среди тех из них, кто его не использовал, в связи с нерепрезентативностью контрольной группы в агрегированных данных эта закономерность не сохраняется.

Сумма Принимавшие лекарство Не принимавшие лекарство
Выздоровевшие 850 480
Невыздоровевшие 870 410
Соотношение 0.977 1.171

Соотношение в агрегированных данных 850/870<480/410, то есть 0,977<1,171. Следовательно, доля выздоровевших среди принимавших лекарство меньше той же доли среди не принимавших.

Для устранения парадокса нужно обратить внимание, что отношение контрольной группы к группе воздействия в приведённых группах резко различается: у мужчин составляет (80+130)/(700+800) = 14 %, а у женщин (400+280)/(150+70) = 309 %.

Для корректного усреднения нужно обеспечить репрезентативность контрольной группы в обеих выборках, введя весовые коэффициенты так, чтобы взвешенная доля контрольных в обеих группах стала одинаковой. В данном случае достаточно количество мужчин, не принимавших лекарства, умножить на весовой коэффициент 22.07. Измененные таблицы будут выглядеть так:

Мужчины Принимавшие

лекарство

Не принимавшие лекарство
исходные с весом x22.07
Выздоровевшие 700 80 1765
Невыздоровевшие 800 130 2869
Соотношение 0.875 0.615
Сумма Принимавшие

лекарство

Не принимавшие лекарство
исходные с весом x22.07
Выздоровевшие 850 480 2165
Невыздоровевшие 870 410 3149
Соотношение 0.977 1.171 0.685

Соотношение взвешенного количества выздоровевших к не выздоровевшим среди не принимавших лекарство в этом случае составит 0,685, то есть ниже, чем у принимавших лекарство. Это устраняет парадокс и показывает отношение выздоровевших к не выздоровевшим без приема лекарства для такой же пропорции мужчин и женщин, как у принимавших лекарство, что позволяет сравнивать эти цифры.

См. также

Примечания

  1. Karl Pearson. Mathematical Contributions to the Theory of Evolution. V. On the Reconstruction of the Stature of Prehistoric Races. Phil. Trans. R. Soc. Lond. A. 1899 192:169-244 doi:10.1098/rsta.1899.0004
  2. The Interpretation of Interaction in Contingency Tables // Journal of the Royal Statistical Society, B, 13 (1951) — pp. 238—241
  3. Blyth, Colin R. On Simpson’s Paradox and the Sure-Thing Principle // Journal of the American Statistical Association, 67 (1972) — p. 364.
  4. М. Гарднер. Глава 19. Индукция и вероятность // Путешествие во времени = Time Travel and Other Mathematical Bewilderments / Перевод с английского Ю. А. Данилова. — М.: Мир, 1990. — С. 278—279. — 341 с. — ISBN 5-03-001166-8.

Ссылки

Read other articles:

Biblica atau International Bible Society adalah suatu lembaga Alkitab yang didirikan pada tahun 1809 dan pemegang hak cipta seluruh dunia untuk Alkitab New International Version (NIV), memberikan perizinan hak komersial kepada Zondervan di Amerika Serikat dan kepada Hodder & Stoughton di Britania Raya. Biblica juga merupakan anggota dari Forum of Bible Agencies International (Forum Lembaga Alkitab Internasional) dan Every Tribe Every Nation.(Setiap Suku Setiap Bangsa). Sejarah Kantor pusa...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Politeknik Pertanian Negeri Payakumbuh – berita · surat kabar · buku · cendekiawan · JSTORPoliteknik Pertanian Negeri PayakumbuhNama sebelumnyaPoliteknik Pertanian Universitas AndalasJenisPerguruan Tingg...

 

River in France For other uses, see Seille (disambiguation). SeilleThe Seille at Vic-sur-SeilleLocationCountryFrancePhysical characteristicsSource  • locationAzoudange, Moselle Mouth  • locationMoselle • coordinates49°7′32″N 6°11′8″E / 49.12556°N 6.18556°E / 49.12556; 6.18556Length138 km (86 mi)Basin size1,348 km2 (520 sq mi)Discharge  • average10.5&...

1929–1994 aerospace manufacturer For other uses, see Grumman (disambiguation). Grumman CorporationIndustryAircraft; aircraft parts and equipment; data processing and preparation; search and navigation equipment; truck and bus bodies; electrical equipment and suppliesFoundedDecember 6, 1929; 94 years ago (1929-12-06)FoundersLeroy GrummanEdmund Ward PoorWilliam T. SchwendlerJake SwirbulDefunctApril 4, 1994 (1994-04-04)FateMerged with NorthropSuccessorNorthrop ...

 

You can help expand this article with text translated from the corresponding article in German. (June 2010) Click [show] for important translation instructions. View a machine-translated version of the German article. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated text into the English Wikipedia...

 

Georges Mathias Makam Mathias di Pemakaman Montmartre, Paris Georges Mathias, né Georges-Amédée-Saint-Clair Mathias di Paris pada 14 Oktober 1826[1] dan meninggal di Pontoise pada 14 Oktober 1910, merupakan seorang pianis, pedagog dan komponis Prancis. Mathias keturunan Jerman dari ayahandanya dan Polandia dari ibundanya, lahir di Paris. Ia memulai kariernya dengan mengerjakan gubahan bersama Friedrich Kalkbrenner dan menjadi murid piano Frédéric Chopin selama lima tahun, antara ...

2020年夏季奥林匹克运动会波兰代表團波兰国旗IOC編碼POLNOC波蘭奧林匹克委員會網站olimpijski.pl(英文)(波兰文)2020年夏季奥林匹克运动会(東京)2021年7月23日至8月8日(受2019冠状病毒病疫情影响推迟,但仍保留原定名称)運動員206參賽項目24个大项旗手开幕式:帕维尔·科热尼奥夫斯基(游泳)和马娅·沃什乔夫斯卡(自行车)[1]闭幕式:卡罗利娜·纳亚(皮划艇)&#...

 

La HMS Royal Oak (Pennant number 08), ottava nave da guerra britannica ad aver portato questo nome[1], è stata una nave da guerra classe Revenge della Royal Navy. Varata nel 1914, entrò in servizio nella primavera del 1916, in tempo per partecipare alla battaglia dello Jutland contro la marina tedesca. Dopo la fine della prima guerra mondiale, la nave servì nell'oceano Atlantico, nella Home Fleet e nella Mediterranean Fleet. Nel 1928 si ritrovò al centro dell'attenzione della stam...

 

Four Pillars HotelsCompany typeSubsidiaryIndustryHospitalityFounded1974HeadquartersHarrogate, EnglandArea servedUnited KingdomKey peopleTony Troy, CEOParentStarwood Capital GroupWebsitewww.phcompany.com Four Pillars Hotels was a hotel chain operating in the United Kingdom. The group had six hotels, situated in Oxford, the Cotswolds and the Thames Valley, operating in the three and four star sector. In 2014 the company was acquired by American Starwood Capital Group for around £90 million.&#...

US railroad with cross harbor car float New York New Jersey Rail, LLCOverviewHeadquartersGreenville, Jersey City, New JerseyReporting markNYNJLocaleUpper New York BayDates of operation2006–PredecessorNew York Cross Harbor RailroadTechnicalTrack gauge4 ft 8+1⁄2 in (1,435 mm) standard gaugeLength4 miles (6 kilometers) (car float) 4.5 miles (7 kilometers) (trackage)OtherWebsitenynjr.com The 65th Street Yard in Brooklyn, refurbished in 1999 by the city of New York....

 

Ethnic group in Italy Ethnic group Albanians in ItalyTotal population441,027[1] - 800,000[2] (2019) (First figure does not include Italian Arbëreshë or Kosovan nationals)Regions with significant populationsEmilia RomagnaLombardyTuscanyLanguagesAlbanian (Arbëreshë)ItalianReligionChristianity[3]Islam[3]JudaismIrreligion[3]Related ethnic groupsAlbaniansAlbanian diaspora Part of a series onAlbanians By country Native Albania Kosovo Croatia Greece Italy ...

 

Book by Anwar Shah Kashmiri Al-Arf al-Shadhi sharh Sunan al-Tirmidhi Arabic coverEditorMuhammad Chiragh PunjabiAuthorAnwar Shah KashmiriOriginal titleالعرف الشذي شرح سنن الترمذيLanguageArabicSubjectSunan al-TirmidhiGenreCommentaryPublished1919Publication placeBritish IndiaMedia typePrintISBN9789957674991 Turath PublishingOCLC884580861Dewey Decimal297.125 Al-Arf al-Shadhi sharh Sunan al-Tirmidhi (Arabic: العرف الشذي شرح سنن الترمذي, roman...

Agency within the US Department of the Interior Bureau of Land ManagementBureau of Land Management TriangleFlag of the Bureau of Land ManagementAgency overviewFormedDecember 10, 1946; 77 years ago (1946-12-10)Preceding agenciesU.S. Grazing ServiceUnited States General Land OfficeJurisdictionUnited States federal governmentHeadquarters1849 C Street NW, Washington, D.C. 20240EmployeesOver 10,000[1]Annual budget$1.31 billion (FY2021)[2]Agency executiveTracy Ston...

 

Ne doit pas être confondu avec Oblast d'Ivano-Frankivsk. Cet article est une ébauche concernant la Russie. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Oblast d’Ivanovo (ru) Ивановская область Armoiries de l'oblast d'Ivanovo Drapeau de l'oblast d'Ivanovo Administration Pays Russie Région économique Centre District fédéral Central Statut politique Oblast Création 11 mars 1936 Capitale...

 

Peninsula in Macedonia, Greece Regional unit in Macedonia, GreeceChalkidiki Περιφερειακή ενότηταΧαλκιδικήςRegional unitMunicipalities of ChalkidikiChalkidikiChalkidiki within Greece Coordinates: 40°20′N 23°30′E / 40.333°N 23.500°E / 40.333; 23.500CountryGreeceGeographic regionMacedoniaAdministrative regionCentral MacedoniaSeatPolygyrosArea • Total2,918 km2 (1,127 sq mi)Population (2021)[1]...

Hungarian actress (1907–1997) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Ida Turay – news · newspapers · books · scholar · JSTOR (June 2019) (Learn how and when to remove this message) The native form of this personal name is Turay Ida. This article uses Western name order when mentioning individu...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (سبتمبر 2021) كبير مسؤولي الحلول (بالإنجليزية: Chief solutions officer)‏ (CSO) هو عنوان شركة يشير إلى مسؤول تنفيذي مسؤول عن تحديد وتطوير وتقديم حلول وخدمات الأعمال.[1] ينصب التركيز...

 

Questa voce sull'argomento Stagioni delle società calcistiche italiane è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento. Voce principale: Associazione Sportiva Dilettantistica Pro Italia Galatina. Unione Sportiva Pro Italia GalatinaStagione 1987-1988Sport calcio Squadra Pro Italia Galatina Allenatore Pietro De Santis poi Oscar Massei Presidente Giuseppe Fuzio Serie C218º posto nel girone C. Retroc...

Chánh án Tòa án nhân dân Tối cao nước Cộng hòa xã hội chủ nghĩaViệt NamQuốc huy Việt NamĐương nhiệmLê Minh Trítừ 26 tháng 8 năm 2024Tòa án nhân dân Tối caoChức vụChánh án(thông dụng)Bổ nhiệm bởiQuốc hội Việt Nam (theo sự đề cử của Chủ tịch nước)Nhiệm kỳ5 nămNgười đầu tiên nhậm chứcTrần Công TườngThành lậptháng 5 năm 1958 Việt Nam Bài này nằm trong loạt bài về:Chính trị...

 

Уран Нептун Ледяной гигант (в отношении экзопланет также встречается холодный нептун) — класс планет-гигантов, которые в основном состоят из элементов тяжелее водорода и гелия. В Солнечной системе известны два ледяных гиганта: Уран и Нептун. В астрофизике вещества с тем�...