P-Wert

Der p-Wert (nach R. A. Fisher), auch Überschreitungswahrscheinlichkeit oder Signifikanzwert genannt ( für lateinisch probabilitas ‚Wahrscheinlichkeit‘), ist in der Statistik und dort insbesondere in der Testtheorie ein Evidenzmaß für die Glaubwürdigkeit der Nullhypothese, die oft besagt, dass ein bestimmter Zusammenhang nicht besteht, z. B. ein neues Medikament nicht wirksam ist. Ein kleiner -Wert legt nahe, dass die Beobachtungen die Nullhypothese nicht stützen. Neben seiner Bedeutung als Evidenzmaß wird der -Wert als mathematisches Hilfsmittel zur Feststellung von Signifikanz in Hypothesentests gebraucht, dem -Wert selbst muss dafür keine besondere Bedeutung zugeschrieben werden.

Der -Wert ist definiert als die Wahrscheinlichkeit – unter der Bedingung, dass die Nullhypothese in Wirklichkeit gilt –, den beobachteten Wert der Prüfgröße oder einen in Richtung der Alternative „extremeren“ Wert zu erhalten. Der -Wert entspricht dann dem kleinsten Signifikanzniveau, bei dem die Nullhypothese gerade noch verworfen werden kann. Da der -Wert eine Wahrscheinlichkeit ist, kann er Werte von null bis eins annehmen. Dies bietet den Vorteil, dass er die Vergleichbarkeit verschiedener Testergebnisse ermöglicht. Der konkrete Wert wird durch die gezogene Stichprobe bestimmt. Ist der -Wert „klein“ (kleiner als ein vorgegebenes Signifikanzniveau; allgemein < 0,05), so lässt sich die Nullhypothese ablehnen.[1] Anders ausgedrückt: Ist die errechnete Prüfgröße größer als der kritische Wert (kann unmittelbar aus einer Quantiltabelle abgelesen werden), so kann die Nullhypothese verworfen werden und man kann davon ausgehen, dass die Alternativhypothese gilt und damit ein bestimmter Zusammenhang besteht (z. B. ein neues Medikament ist wirksam). Wenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird, wird das Resultat als „statistisch signifikant“ bezeichnet. „Signifikant“ bedeutet hierbei lediglich „überzufällig“ und ist nicht gleichbedeutend mit „praktischer Relevanz“ oder „wissenschaftlicher Bedeutsamkeit“. In verschiedenen wissenschaftlichen Disziplinen haben sich festgesetzte Grenzen wie 5 %, 1 % oder 0,1 % etabliert, die verwendet werden, um zu entscheiden, ob die Nullhypothese abgelehnt werden kann oder nicht. Die Größe des -Werts gibt keine Aussage über die Größe des wahren Effekts.

Der -Wert wird sehr häufig fehlinterpretiert und falsch verwendet, weswegen sich die American Statistical Association im Jahr 2016 genötigt sah, eine Mitteilung über den Umgang mit -Werten und statistischer Signifikanz zu veröffentlichen.[2] Einer kleinen kanadischen Feldstudie von 2019 zufolge werden in etlichen Lehrbüchern die Begriffe „-Wert“ und „statistische Signifikanz“ nicht korrekt vermittelt.[3] Studien von Oakes (1986) und Haller & Krauss (2002) zeigen, dass ein Großteil von Studierenden und von Lehrern der Statistik den -Wert nicht korrekt interpretieren können. Die falsche Verwendung und die Manipulation von -Werten (siehe -Hacking) ist eine Kontroverse in der Meta-Forschung.

Mathematische Formulierung

Bei einem statistischen Test wird eine Vermutung (Nullhypothese) überprüft, indem ein passendes Zufallsexperiment durchgeführt wird, das die Zufallsgrößen liefert. Diese Zufallsgrößen werden zu einer einzelnen Zahl, Prüfgröße genannt, zusammengefasst:

Für einen konkreten Versuchsausgang des Experiments erhält man einen Wert

.

Der -Wert ist definiert als die Wahrscheinlichkeit – unter der Bedingung, dass die Nullhypothese in Wirklichkeit gilt – den beobachteten Wert der Prüfgröße oder einen in Richtung der Alternative „extremeren“ Wert zu erhalten.[4] Für zusammengesetzte Nullhypothesen ist diese bedingte Wahrscheinlichkeit nur noch nach oben abschätzbar.

Genauer wird der -Wert für einen statistischen Test mit einer Abbildung , die jedem den zugehörigen Nicht-Ablehnungsbereich zuordnet, definiert als .

Bei einem rechtsseitigen Test gilt:

Bei einem linksseitigen Test gilt:

Und bei einem zweiseitigen Test gilt:

Für diese Realisierung im Ablehnbereich ist der -Wert kleiner als , oder dazu äquivalent ist die Realisierung der Prüfgröße x größer als der kritische Wert z. Hier ist die Wahrscheinlichkeitsdichte der Verteilung unter der Nullhypothese

Üblicherweise wird vor dem Test ein Signifikanzniveau festgelegt und der -Wert dann mit diesem verglichen. Je kleiner der -Wert ist, desto mehr Grund gibt es, die Nullhypothese zu verwerfen. Ist der -Wert kleiner als das vorgegebene Signifikanzniveau , so wird die Nullhypothese verworfen. Ansonsten kann man die Nullhypothese nicht verwerfen.

Nach frequentistischer Sichtweise enthält der von R. A. Fisher eingeführte -Wert keine weiterführende Information; nur die Tatsache, ob er kleiner ist als ein vorgegebenes Niveau , ist von Interesse. In dieser Form ist nur eine andere Formulierung dafür, dass der beobachtete Wert der Prüfgröße in der kritischen Region liegt, und fügt der Neyman-Pearsonschen Theorie der Hypothesentests nichts Neues hinzu.

Beispiel

Gegeben sei eine Münze. Die zu prüfende Nullhypothese sei, dass die Münze fair ist, dass also Kopf und Zahl gleich wahrscheinlich sind; die Alternativhypothese sei, dass ein Ergebnis wahrscheinlicher ist, wobei nicht festgelegt wird, welches der beiden wahrscheinlicher sein soll. Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin, dass die Münze zwanzig Mal geworfen wird. bezeichne die Anzahl der Würfe, die „Kopf“ als Ergebnis liefern. Bei einer fairen Münze wäre zehnmal „Kopf“ zu erwarten. Als Statistik wählt man daher sinnvollerweise

. Y = Realisierung von entweder "Kopf" oder "Zahl"

Angenommen, der Versuch liefert -mal das Ergebnis „Kopf“, also ist die Realisierung von hier . Unter der Nullhypothese ist die Anzahl der Köpfe binomialverteilt mit und . Der -Wert für diesen Versuchsausgang ist daher

.

Auf einem Signifikanzniveau von α = 5 % = 0,05 kann man die Nullhypothese nicht verwerfen, da 0,115 > 0,05 (und nicht kleiner, wie nötig wäre). Das heißt, dass man aus den Daten nicht folgern kann, dass die Münze nicht fair ist.

Wäre das Versuchsergebnis -mal Kopf, also , dann wäre der -Wert für diesen Versuchsausgang

.

Auf einem Signifikanzniveau von α = 5 % = 0,05 würde man in diesem Fall die Nullhypothese verwerfen, da 0,041 < 0,05; man würde also schließen, dass die Münze nicht fair ist. Auf einem Signifikanzniveau von 1 % hingegen wären weitere Tests nötig. (Genauer gesagt: Man würde die Datenlage für unzureichend ansehen, um den Schluss zu rechtfertigen, die Münze sei nicht fair. Dies als einen Beweis zu nehmen, dass die Münze fair ist, wäre jedoch falsch.)

Beziehung zum Signifikanzniveau

Es gibt eine Äquivalenz zwischen einem Testverfahren mit der Berechnung des -Wertes und einem Verfahren mit dem im Voraus bestimmten Signifikanzniveau. Der -Wert berechnet sich anhand des beobachteten Wertes der Prüfgröße, und der kritische Wert folgt aus dem Signifikanzniveau , so gilt z. B. rechtsseitig:

und

KS-Test für die Variable „Mittlerer Hauspreis pro Bezirk“ des Boston-Housing-Datensatzes.

wobei den kritischen Wert darstellt. In statistischer Software wird bei der Durchführung eines Tests der -Wert, siehe rechts unter Asymptotische Signifikanz (letzte Zeile im Kasten), angegeben. Ist der -Wert kleiner als das vorgegebene Signifikanzniveau , so ist die Nullhypothese abzulehnen.

Auf der einen Seite enthebt die Ausgabe des -Wertes bei einem Test die Software explizit davon, nach dem vorgegebenen Signifikanzniveau zu fragen, um eine Testentscheidung zu treffen. Auf der anderen Seite besteht die Gefahr, dass der Forscher das eigentlich im Voraus festzulegende Signifikanzniveau anpasst, um sein gewünschtes Ergebnis zu bekommen.

Weitere Eigenschaften

Falls die Prüfgröße eine stetige Verteilung hat, ist der -Wert, unter der (punktförmigen) Nullhypothese, uniform verteilt auf dem Intervall .[5]

Typische Fehlinterpretationen

Wenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird, wird das Resultat als „statistisch signifikant“ bezeichnet. „Signifikant“ bedeutet hierbei lediglich „überzufällig“. Ein häufiges Missverständnis ist die Gleichsetzung dieser Aussage mit der falschen Behauptung, der -Wert würde angeben, wie wahrscheinlich die Nullhypothese bei Erhalt dieses Stichprobenergebnisses sei. Tatsächlich wird mit dem -Wert jedoch angedeutet, wie extrem das Ergebnis ist: Je kleiner der -Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese.

Goodman formuliert 12 Aussagen über -Werte, die ausgesprochen weit verbreitet und dennoch falsch sind,[6] wie zum Beispiel die folgenden:

  • Falsch ist: Wenn , ist die Chance, dass die Nullhypothese wahr ist, nur 5 %.
  • Falsch ist: Ein nicht-signifikanter Unterschied bedeutet bei einem Mittelwertsvergleich zwischen zwei Gruppen, dass die Mittelwerte gleich sind.
  • Ebenfalls falsch ist: Nur ein signifikanter Unterschied bedeutet, dass das Ergebnis in der Realität, beispielsweise in der klinischen Anwendung, wichtig ist.

Kritik am p-Wert

Kritiker des -Werts weisen darauf hin, dass das Kriterium, mit dem über die „statistische Signifikanz“ entschieden wird, auf einer willkürlichen Festlegung des Signifikanzlevels basiert (oft auf 0,05 gesetzt) und dass das Kriterium zu einer alarmierenden Anzahl von falsch-positiven Tests führt. Der Anteil aller „statistisch signifikanten“ Tests, bei denen die Nullhypothese wahr ist, könnte beträchtlich höher sein als das Signifikanzniveau, was wiederum davon abhängt, wie viele der Nullhypothesen falsch sind und wie hoch die Trennschärfe des Tests ist. Die Einteilung der Resultate in signifikante und nicht-signifikante Ergebnisse kann stark irreführend sein. Zum Beispiel kann die Analyse von beinahe identischen Datensätzen zu -Werten führen, die sich stark in der Signifikanz unterscheiden. In der medizinischen Forschung stellte der -Wert anfangs eine beachtliche Verbesserung der bisherigen Ansätze dar, aber gleichzeitig ist es mit der steigenden Komplexität der publizierten Artikel wichtig geworden, die Fehlinterpretationen des -Werts aufzudecken. Es wurde darauf hingewiesen, dass in Forschungsfeldern wie der Psychologie, bei denen Studien typischerweise eine niedrige Trennschärfe haben, die Anwendung von Signifikanztests zu höheren Fehlerraten führen kann. Die Verwendung von Signifikanztests als Grundlage von Entscheidungen wurde wegen der weit verbreiteten Missverständnisse über den Prozess ebenfalls kritisiert. Entgegen der landläufigen Meinung gibt der -Wert nicht die Wahrscheinlichkeit der Nullhypothese an, wahr oder falsch zu sein. Des Weiteren sollte die Signifikanzschwelle nicht festgelegt werden, ohne die Konsequenzen eines falsch-positiven oder falsch-negativen Ergebnisses des konkreten Tests zu berücksichtigen.

Alternativen

P-Werte der zweiten Generation (second generation p-values) erweitern das Konzept der p-Werte so, dass extrem kleine, praktisch unrelevante Effektgrößen nicht als signifikant bewertet werden.[7]

Der Bayes-Faktor ist eine Alternative für den p-Wert in der Bayesschen Statistik.

Einzelnachweise

  1. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2018, ISBN 978-3-662-56657-2, S. 452
  2. R. Wasserstein, N. Lazar: The ASA’s Statement on p-Values: Context, Process, and Purpose. In: The American Statistician. Band 70, Nr. 2, 2016, S. 129–133, doi:10.1080/00031305.2016.1154108.
  3. S. Cassidy, R. Dimova, B. Giguère, J. Spence, D. Stanley: Failing Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly. In: Advances in Methods and Practices in Psychological Science. Juni 2019, doi:10.1177/2515245919858072.
  4. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2016, ISBN 978-3-662-50371-3, S. 388.
  5. Besag, Clifford: Sequential Monte Carlo p-values. In: Biometrika Nr. 78(2), 1991. S. 301–304. doi:10.1093/biomet/78.2.301.
  6. Steven Goodman: A Dirty Dozen: Twelve P-Value Misconceptions. In: Seminars in Hematology. Nr. 45, 2008. S. 135–140 (PDF-Datei, abgerufen am 17. Dezember 2021).
  7. Jeffrey D. Blume, Robert A. Greevy, Valerie F. Welty, Jeffrey R. Smith, William D. Dupont: An Introduction to Second-Generation p-Values. doi:10.1080/00031305.2018.1537893 (englisch).

Read other articles:

Este artículo o sección necesita referencias que aparezcan en una publicación acreditada.Este aviso fue puesto el 19 de enero de 2018. Diagrama 1. Apariencia del espacio-tiempo a lo largo de una línea de universo de un observador acelerado.La dirección vertical indica el tiempo, la horizontal indica la distancia espacial, la línea punteada es la trayectoria del observador en el espacio tiempo. El cuarto inferior representa el conjunto de sucesos pasados visibles al observador. Los punt...

 

 

Infante JaimeInfanta Spanyol; Adipati Segovia ; Adipati AnjouPretender takhta PrancisPretendensi28 Februari 1941 – 20 Maret 1975PendahuluAlfonso XIII dari SpanyolPenerusAlfonso, Adipati Anjou dan CádizPretender takhta SpanyolPretendensi28 Februari 1941 – 20 Maret 1975PendahuluAlfonso XIIIPenerusAlfonso, Adipati Anjou dan CádizInformasi pribadiKelahiran(1908-06-23)23 Juni 1908Istana Kerajaan La Granja de San Ildefonso, San Ildefonso, Segovia, SpanyolKematian20 Maret 1975(1975-03-20)...

 

 

Anchee Min (2014) Anchee Min (lahir 14 Januari 1957) adalah seorang pelukis, fotografer, musisi dan pengarang yang tinggal di San Francisco dan Shanghai. Ia menulis memoir Red Azalea dan novel semiautobiografi dengan tokoh perempuan kuat, seperti Jiang Qing (istri Mao Zedong, dan Ibusuri Cixi. Lahir di Shanghai, Min dikirim ke kamp pekerja pada usia 17 tahun dimana bakatnya ditemukan. Ia bekerja sebagai aktris di Studio Film Shanghai dan pergi ke Amerika Serikat tahun 1984 dengan bantuan aktr...

Une télévision datant de 1947. Musée de la civilisation, fonds Jourdain-Fiset - Gabriel Miller.La télévision québécoise est une partie essentielle de la culture québécoise et canadienne-française. Elle se développe à partir des années 1950, lorsque le gouvernement fédéral du Canada se donne comme objectif d'offrir une alternative aux émissions de télévision américaines. Historique Développement de la télévision (1932-1960) John Baird, un physicien écossais, met au point...

 

 

Paul Delaroche Henriette Sontag ritratta in costume di Donna Anna, 1831Museo Ermitage Henriette Sontag, pseudonimo di Gertrude Walpurgis Rossi, nata Sontag, contessa di Lauenstein (Coblenza, 13 maggio 1805[1] – Messico, 17 giugno 1854[2]), è stata un soprano e attrice teatrale tedesca e anche francese, perché nata in territorio allora francese, il dipartimento di Rhin-et-Moselle, sotto il Primo Impero francese. Fu attiva tra il 1820 ed il 1854. Indice 1 Biografia 2 Omaggi ...

 

 

Imperatore del MessicoCorona araldica StemmaStemma del Secondo Impero messicano Data di creazione19 maggio 1822 Primo detentoreAgustin I Ultimo detentoreMassimiliano I Data di estinzione15 maggio 1867 TrasmissioneEreditaria per legge salica Trattamento d'onoreMaestà imperiale FamigliaDimoreCastello di Chapultepec, Città del Messico Manuale L'Imperatore del Messico (in spagnolo Emperador de México) fu il titolo del sovrano e capo di Stato del Messico in due occasioni non consecutive nel XIX...

Inauguration of Abdurrahman WahidPresident Abdurrahman Wahid inaugurated at the MPR/DPR building.Date20 October 1999; 24 years ago (1999-10-20)LocationParliamentary Complex, JakartaParticipantsAbdurrahman Wahid4th President of Indonesia— Assuming office← 19982001 → The inauguration of Abdurrahman Wahid as the fourth president of Indonesia took place on Wednesday, 20 October 1999 at the Parliamentary Complex, Jakarta.[1][2] The ce...

 

 

Sceaux 行政国 フランス地域圏 (Région) イル=ド=フランス地域圏県 (département) オー=ド=セーヌ県郡 (arrondissement) アントニー郡小郡 (canton) 小郡庁所在地INSEEコード 92071郵便番号 92330市長(任期) フィリップ・ローラン(2008年-2014年)自治体間連合 (fr) メトロポール・デュ・グラン・パリ人口動態人口 19,679人(2007年)人口密度 5466人/km2住民の呼称 Scéens地理座標 北緯48度4...

 

 

For other uses, see Northeast Coast campaign. Fort Halifax (Maine) vteSeven Years' War in North America: The French and Indian War, Atlantic theater 1st Northeast Coast Cape Ray Chignecto Bay of Fundy Petitcodiac 2nd Northeast Coast 1st Lunenburg 1st Louisbourg Bloody Creek 2nd Lunenburg 2nd Louisbourg Petitcodiac River Ile Saint-Jean Gulf of St. Lawrence Cape Sable St. John River Restigouche St. John's The Northeast Coast campaign (1756) occurred during the French and Indian War, in which th...

此條目需要补充更多来源。 (2021年7月4日)请协助補充多方面可靠来源以改善这篇条目,无法查证的内容可能會因為异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:美国众议院 — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。 美國眾議院 United States House of Representatives第118届美国国会众议院徽章 众议院旗...

 

 

Region of Massachusetts in the United StatesNorth ShoreRegion of MassachusettsThe North Shore region of MassachusettsCoordinates: 42°36′N 70°48′W / 42.6°N 70.8°W / 42.6; -70.8Country United StatesState MassachusettsMetropolitan areaGreater BostonSubregionsMerrimack Valley, Cape AnnPopulation (2010) • Total636,187Largest municipality (population)Lynn (94,654)Largest municipality (land)Ipswich (42.51 square miles) The North Shore is a r...

 

 

This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) The neutrality of this article is disputed. Relevant discussion may be found on the talk page. Please do not remove this message until conditions to do so are met. (November 2020) (Learn how and when to remove this message) This article contains weasel words: vague phrasing that often accompanies biased or unverifiable information. Such stat...

Notion of rights to which plants may be entitled Not to be confused with Plant breeders' rights. Rights Theoretical distinctions Claim rights and liberty rights Individual and group rights Natural rights and legal rights Negative and positive rights Human rights Civil and political Economic, social and cultural Three generations Rights by beneficiary Accused Animals Children Consumers Creditors Deaf Disabled Elders Farmers Fetuses Humans Indigenous Intersex Kings LGBT Transgender Men Minoriti...

 

 

Front page of The Tasmanian, 1 January 1881 The Tasmanian was a newspaper published in Launceston, Tasmania, Australia between 1871 and 1895.[1] Digitised editions from 1881 to 1895 are available via Trove.[1] See also List of newspapers in Australia References ^ a b The Tasmanian. National Library of Australia. Retrieved 26 August 2016. External links Media related to The Tasmanian at Wikimedia Commons The Tasmanian (Launceston, Tas. : 1871 - 1879) at Trove The ...

 

 

الجمعية الطبية الإسلامية البلد مصر  تاريخ التأسيس 1977 المؤسس أحمد الملط  تعديل مصدري - تعديل   الجمعية الطبية الإسلامية - مصر جمعية طبية خيرية غير ربحية أسسها د.أحمد الملط سنة 1977م في مصر، لها 22 مستشفى ومستوصفاً في مصر.[1] المستشفى الخيري المركزي وقامت الجمعية ببنا�...

本條目存在以下問題,請協助改善本條目或在討論頁針對議題發表看法。 此條目的引用需要清理,使其符合格式。 (2015年8月26日)参考文献应符合正确的引用、脚注及外部链接格式。 此條目可能包含不适用或被曲解的引用资料,部分内容的准确性无法被证實。 (2014年10月26日)请协助校核其中的错误以改善这篇条目。详情请参见条目的讨论页。 此條目需要編修,以確保文法、�...

 

 

2022 video gameValkyrie ElysiumDeveloper(s)SoleilPublisher(s)Square EnixComposer(s)Motoi SakurabaSeriesValkyrie ProfileEngineUnreal Engine 4Platform(s)PlayStation 4PlayStation 5WindowsReleasePlayStation 4, PlayStation 5September 29, 2022WindowsNovember 11, 2022Genre(s)Action role-playing gameMode(s)Single-player Valkyrie Elysium is an action role-playing video game developed by Soleil and published by Square Enix. It was released on September 29, 2022 for PlayStation 4 and PlayStation 5, and...

 

 

Error in reasoning attributed to René Descartes René Descartes The Cartesian circle (also known as Arnauld's circle[1]) is an example of fallacious circular reasoning attributed to French philosopher René Descartes. He argued that the existence of God is proven by reliable perception, which is itself guaranteed by God. The argument Descartes argues – for example, in the third of his Meditations on First Philosophy – that whatever one clearly and distinctly perceives is true: I ...

The Man Who Can't Be MovedSingel oleh the Scriptdari album The ScriptSisi-BAnybody ThereDirilis25 Juli 2008GenrePop rock[1]Durasi4:01LabelRCAPhonogenicPenciptaMark SheehanDanny O'DonoghueSteve KipnerAndrew FramptonKronologi singel the Script We Cry (2008) The Man Who Can't Be Moved (2008) Breakeven (2008) The Man Who Can't Be Moved adalah single kedua dari band asal Irlandia The Script dari album debut mereka The Script. Lagu ini dirilis pada 25 Juli 2008. Lagu ini banyak digunakan di...

 

 

National motto of the Confederate States of America The motto appears on the margin beneath the device of the Seal of the Confederate States. Deo vindice on the 1864 CS$500 banknote Deo vindice (Latin for (With) God (as our) defender/protector)[note 1] was the national motto of the Confederate States of America. It appears on the margin beneath the device of the Seal of the Confederate States.[1] Never codified by law, Deo vindice was considered the de facto motto of the Confe...