Die grundlegende Annahme der Geostatistik ist, dass die untersuchten Variablenwerte von der räumliche Lage der Datenpunkte stochastisch abhängen.[2] Im einfachsten Fall bedeutet das, dass benachbarte Daten sich ähneln und somit Punkte über die Distanz zueinander korrelieren. So können z. B. Relief- oder Temperaturkarten erstellt werden, ohne dass jeder Punkt vermessen werden muss, da in der Regel zwischen Temperaturen oder Höhenlagen ein Mittel auftritt.
Aufgrund dieser Ortsabhängigkeit der Daten lassen sich übliche statistische Verfahren nicht durchführen, da diese eine stochastische Unabhängigkeit voraussetzen.[2]
Die Ursprünge der Geostatistik gehen auf die Lagerstättenkunde in den 1950er Jahren zurück, als Danie G. Krige die ersten Konzepte entwickelte, um mit statistischen Verfahren und Schätzmethoden die Anzahl aufwendiger Probebohrungen zu minimieren die nötig sind um abbauwürdige Gebiet zu kartieren. Als Begründer der Geostatistik selbst gilt Georges Matheron, der 1971 die als "Theorie der regionalisierten Variablen" bekannten mathematisch-theoretischen Grundlagen für die Disziplin veröffentlichte.[1]
Hintergrund
Geostatistische Methoden basieren auf statistischen Modellen, die räumliche Autokorrelation (statistische Beziehungen zwischen den gemessenen Punkten) enthalten. Diese Methoden können auf Grundlage der angenommenen Werte weitere vorhergesagte Werten erzeugen und die Genauigkeit dieser Vorhersagen messen.[3]
Eine Reihe einfacherer Interpolationsverfahren/-algorithmen, wie beispielsweise die inverse Distanzwichtung, waren schon vor der Entwicklung der Geostatistik bekannt,[4] allerdings gehen die Methoden der Geostatistik über das Interpolationsproblem hinaus, indem sie das untersuchte Phänomen an unbekannten Orten als eine Reihe korrelierter Zufallsvariablen betrachten.
Sei der Wert der zu untersuchenden Variablen an einer bestimmten Stelle . Dieser Wert ist unbekannt (z. B. Temperatur, Niederschlag, geologische Fazies usw.). Obwohl am Ort ein Wert vorhanden ist, der gemessen werden könnte, betrachtet die Geostatistik diesen Wert als zufällig, da er nicht oder noch nicht gemessen wurde. Die Zufälligkeit von ist jedoch nicht vollständig, sondern definiert durch eine kumulative Verteilungsfunktion (CDF), die von bestimmten Informationen abhängt, die über den Wert bekannt sind:
Wenn der Wert von Z an Orten in der Nähe von x bekannt ist, kann man typischerweise die CDF von durch diese Nachbarschaft einschränken: Wenn eine hohe räumliche Kontinuität angenommen wird, muss an der Stelle ähnliche Werte besitzen wie an benachbarten Datenpunkten. Umgekehrt kann ohne räumliche Kontinuität jeden Wert annehmen.
Indem man ein einzelnes räumliches Modell auf einen gesamten Bereich anwendet, geht man davon aus, dass ein stationärer Prozess ist. Das bedeutet, dass die gleichen statistischen Eigenschaften auf die gesamte Domäne anwendbar sind. Mehrere geostatistische Methoden bieten Möglichkeiten, diese Stationaritätsannahme zu lockern.
In diesem Rahmen lassen sich zwei Modellierungsziele unterscheiden:
Schätzung des Werts für , typischerweise durch den Erwartungswert, den Median oder den Modus der CDF . Dies wird üblicherweise als Schätzproblem bezeichnet.
Stichproben aus der gesamten Wahrscheinlichkeitsdichtefunktion durch tatsächliche Berücksichtigung jedes möglichen Ergebnisses davon an jedem Ort. Dies erfolgt im Allgemeinen durch Erstellen mehrerer alternativer Abbildungen von , die als Realisierungen bezeichnet werden. Stellen Sie sich eine Domäne vor, die in Gitterknoten (oder Pixel) diskretisiert ist. Jede Realisierung ist ein Muster der vollständigen N-dimensionalen gemeinsamen Verteilungsfunktion
Bei diesem Ansatz wird das Vorhandensein mehrerer Lösungen für das Interpolationsproblem anerkannt. Jede Realisierung wird als mögliches Szenario dessen betrachtet, was die reale Variable sein könnte. Alle zugehörigen Abläufe berücksichtigen dann ein Ensemble von Realisierungen und folglich ein Ensemble von Vorhersagen, die eine probabilistische Vorhersage ermöglichen. Daher wird die Geostatistik häufig verwendet, um räumliche Modelle zu generieren oder zu aktualisieren, wenn inverse Probleme gelöst werden müssen.[5][6]
Analyse
Die klassische geostatistische Analyse wird in 3 Bereiche unterteilt, die Datenbeschreibung, Interpretation und Schätzung.[1]
Datenbeschreibung
Bei der Datenbeschreibung werden mithilfe von deskriptiver Statistik und Variogrammen erste Erkenntnisse der zeitlichen, räumlichen und multivariaten Struktur ermittelt.
Bei der deskriptiven Statistik werden die wesentlichen Kennwerten des Datensatzes, wie die Extrem- und Mittelwerte, der Variationskoeffizient oder die Streuung und Verteilung der Daten, beschrieben. Als beschreibende Funktionen können Histogramme oder kumulative Verteilungsfunktionen aufgestellt werden.
Die Variogramme werden als empirische Semivariogramme umgesetzt, aus welchen ermittelt werden kann bis zu welcher maximalen Entfernung (Reichweite) und in welchem Maße Messwerte von benachbarten oder weiter entfernten Messwerten abhängen. Für alle Entfernungen (als x-Werte), die jeweils zwei Messorte des Datensatzes zueinander haben, werden die Differenzen der jeweiligen Messwerte (als y-Werte) aufgetragen: Die wachsende Unähnlichkeit mit wachsender Entfernung spiegelt sich in der Zunahme der y-Werte mit steigenden x-Werten bis zu einem bestimmten Grenzwert wider. Diese Abhängigkeit wird mit einer Modellfunktion, zum Beispiel einer quadratischen Funktion, ausgedrückt.
Modellfunktion
Die Modellfunktion ist eine angelegte Funktion die den Verlauf der Datenpunkte im Variogram bestmöglich nachzeichnen soll. Dabei ist der Verlauf des Variogrammes für die aufgestellte Funktion auf kleine Distanzen (innerhalb der Reichweite) relevanter als auf große. Hierbei finden hauptsächlich 4 klassische Modellfunktionen Anwendung:
sphärisches Modell: steigt linear an und geht ab Reichweite in den Sill (Plateauwert) über.
exponentielles Modell: zeigt einen exponentiellen Anstieg und erreicht bei der Reichweite (~) asymptotisch den Sill.
Gauß’sches Modell: zeigt einen parabolischen Anstieg und geht bei der Reichweite (~) in den Sill über.
lineares Modell: diese Funktion erreicht keinen Sill, sie steigt stetig an.
Die Modellfunktion, die aus der Analyse der Messwerte gewonnen wurde, ist die Grundlage für die bei der Schätzung erfolgende Interpolation einer Verteilung von Schätzwerten im Raum.
Nuggeteffekt
Der Nuggeteffekt ist ein durch die Goldexploration geprägter Begriff, der eine bereits in sehr geringem Abstand bestehende hohe unregelmäßige Verteilung; eine hohe Varianz zwischen eng benachbarten Stichprobenwerten (Nuggetvarianz) bezeichnet. Er wird normalerweise als isotrope Komponente angesehen, obwohl Gegenbeispiele in der Praxis ebenfalls bekannt sind.[7]
Interpretation
Die Interpretation wird unter der Berücksichtigung von lokalen Zusatzinformationen und früheren oder ähnlichen Datenerfassung durchgeführt und dient als Schritt, in dem der Datensatz auf den Untersuchungsgegenstand angewandt wird.
Sie dient zu großen Teilen der geowissenschaftlichen Plausibilitätsprüfung und der Wahl einer stimmigen Schätzmethode sowie aussagekräftigen Darstellung der Ergebnisse.
Schätzung
Bei der Schätzung werden aus den erhobenen Stichprobenwerten und gewonnenen Informationen Werte approximiert, die sowohl innerhalb (Interpolation) als auch außerhalb (Extrapolation) des Untersuchungsgebietes liegen können.
Der Schätzwert für eine physikalische Größe (wie die Oberflächentemperatur) an einem Schätzort ist aufgrund der räumlichen Korrelation stärker von den Messwerten benachbarter als von solchen entfernter Messorte abhängig. Für die Abschätzung sind diese benachbarten Messwerte daher stärker zu berücksichtigen. Dabei unterscheidet man zwei Methoden, die nichtstatistischen und die statistischen Interpolationsverfahren, wobei letztere auf einem Geostatistischen Modell (häufig einem speziellen Zufallsfeld) beruhen.
Als Interpolationsmethode hat sich das Kriging-Verfahren gegenüber anderen Methoden wie der Linearen Interpolation, Polygonmethode und Inversen Distanzwichtung etabliert. Beim Kriging erhalten die Messwerte je nach Nähe zum gesuchten Schätzwert in Abhängigkeit vom modellierten Semivariogramm unterschiedliche Gewichtungsfaktoren, mit denen sie in die Berechnung des Schätzwerts eingehen (Gegenbeispiel: arithmetischer Mittelwert als Schätzer: alle Messwerte erhalten ohne Unterschied dasselbe Gewicht).
Voraussetzung für die Interpolation ist, dass im Untersuchungsgebiet die Messwertverteilung homogen ist. In der Regel wird dies in der Praxis auf die stochastische Stationarität 2. Ordnung abgeschwächt, also dass der Erwartungswert einer Zufallsfunktion unabhängig von ihrem Ort und nur eine Funktion des Abstandsvektors ist.[8]
↑Edward H. Isaaks: Applied geostatistics. Oxford University Press, New York 1989, ISBN 0-19-505012-6.
↑Hansen, T.M., Journel, A.G., Tarantola, A. and Mosegaard, K. (2006). "Linear inverse Gaussian theory and geostatistics", Geophysics 71
↑Kitanidis, P.K. and Vomvoris, E.G. (1983). "A geostatistical approach to the inverse problem in groundwater modeling (steady state) and one-dimensional simulations", Water Resources Research 19(3):677-690
↑Nuggeteffekt. In: Lexikon der Kartographie und Geomatik. Spektrum, abgerufen am 15. März 2022.
↑Stationarität. In: Lexikon der Kartographie und Geomatik. Spektrum, abgerufen am 30. Januar 2022.
↑Georg Roth: GEBEN UND NEHMEN. Eine wirtschaftshistorische Studie zum neolithischen Hornsteinbergbau von Abensberg-Arnhofen, Kr. Kelheim (Niederbayern). BAND I: Bergbau. Universität Köln, 2008, S.308–333 (uni-koeln.de [PDF]).