Η Mαθηματική στατιστική είναι η εφαρμογή της θεωρίας πιθανοτήτων, ενός κλάδου των μαθηματικών, στη στατιστική, σε αντίθεση με τις τεχνικές συλλογής στατιστικών δεδομένων. Οι συγκεκριμένες μαθηματικές τεχνικές που χρησιμοποιούνται για τον σκοπό αυτό περιλαμβάνουν τη μαθηματική ανάλυση, τη γραμμική άλγεβρα, τη στοχαστική ανάλυση, τις διαφορικές εξισώσεις και τη θεωρία μετρήσεων[1][2].
Εισαγωγή
Η συλλογή στατιστικών δεδομένων αφορά το σχεδιασμό μελετών, ιδίως το σχεδιασμό δειγματοληπτικών πειραμάτων και το σχεδιασμό ερευνών με τυχαία δειγματοληψία. Η αρχική ανάλυση των δεδομένων ακολουθεί συχνά το πρωτόκολλο μελέτης που καθορίστηκε πριν από τη διεξαγωγή της μελέτης. Τα δεδομένα μιας μελέτης μπορούν επίσης να αναλυθούν για να εξεταστούν δευτερεύουσες υποθέσεις που εμπνέονται από τα αρχικά αποτελέσματα ή για να προταθούν νέες μελέτες. Η δευτερογενής ανάλυση των δεδομένων από μια προγραμματισμένη μελέτη χρησιμοποιεί εργαλεία ανάλυσης δεδομένων και η διαδικασία αυτής της ανάλυσης βασίζεται στη μαθηματική στατιστική.
Η ανάλυση δεδομένων χωρίζεται σε
Περιγραφική στατιστική - το τμήμα της στατιστικής που περιγράφει τα δεδομένα, δηλαδή συνοψίζει τα δεδομένα και τις τυπικές ιδιότητές τους.
Συμπερασματική στατιστική - το μέρος της στατιστικής που εξάγει συμπεράσματα από τα δεδομένα (χρησιμοποιώντας ένα πρότυπο για τα δεδομένα): Παραδείγματος χάριν, η επαγωγική στατιστική περιλαμβάνει την επιλογή ενός μοντέλου για τα δεδομένα, τον έλεγχο του κατά πόσον τα δεδομένα πληρούν τις προϋποθέσεις ενός συγκεκριμένου μοντέλου και την ποσοτικοποίηση της αβεβαιότητας που ενέχεται ((παραδείγματος χάριν με τη χρήση διαστημάτων εμπιστοσύνης).
Ενώ τα εργαλεία ανάλυσης δεδομένων λειτουργούν καλύτερα σε δεδομένα από δειγματοληπτικές μελέτες, εφαρμόζονται και σε άλλους τύπους δεδομένων. Για παράδειγμα, σε φυσικά πειράματα και μελέτες παρατήρησης, όπου η εξαγωγή συμπερασμάτων εξαρτάται από το μοντέλο που επιλέγει ο στατιστικολόγος και ούτω καθεξής[3][4].
Διαδικασία
Ακολουθούν μερικά από τα σημαντικά θέματα της μαθηματικής στατιστικής:[5][6].
Κατανομές πιθανοτήτων
Μια κατανομή πιθανότητας είναι μια συνάρτηση που αποδίδει μια πιθανότητα σε κάθε μετρήσιμο υποσύνολο των πιθανών αποτελεσμάτων ενός τυχαίου πειράματος, μιας έρευνας ή μιας διαδικασίας στατιστικής συμπερασματολογίας. Παραδείγματα μπορούν να βρεθούν σε πειράματα όπου ο δειγματικός χώρος είναι μη αριθμητικός, όπου η κατανομή θα ήταν μια κατηγορική κατανομή- σε πειράματα όπου ο δειγματικός χώρος κωδικοποιείται από διακριτές τυχαίες μεταβλητές, όπου η κατανομή μπορεί να καθοριστεί από μια συνάρτηση μάζας πιθανότητας- και σε πειράματα όπου ο δειγματικός χώρος κωδικοποιείται από συνεχείς τυχαίες μεταβλητές, όπου η κατανομή μπορεί να καθοριστεί από μια συνάρτηση πυκνότητας πιθανότητας. Πιο σύνθετα πειράματα, όπως εκείνα που περιλαμβάνουν στοχαστικές διαδικασίες που ορίζονται σε συνεχή χρόνο, μπορεί να απαιτούν τη χρήση πιο γενικών μέτρων πιθανότητας.
Μια κατανομή πιθανότητας μπορεί να είναι μονομεταβλητή ή πολυμεταβλητή. Μια μονομεταβλητή κατανομή δίνει τις πιθανότητες μιας μεμονωμένης τυχαίας μεταβλητής να πάρει διάφορες εναλλακτικές τιμές- μια πολυμεταβλητή κατανομή (μια κοινή κατανομή πιθανότητας) δίνει τις πιθανότητες ενός τυχαίου διανύσματος - ένα σύνολο δύο ή περισσότερων τυχαίων μεταβλητών - να πάρει διάφορους συνδυασμούς τιμών. Σημαντικές και συχνά απαντώμενες μονομεταβλητές κατανομές πιθανότητας είναι η διωνυμική κατανομή, η υπεργεωμετρική κατανομή και η κανονική κατανομή. Μια συχνά συναντώμενη πολυμεταβλητή κατανομή είναι η πολυμεταβλητή κανονική κατανομή.
Κατανομή Μπερνούλι, για το αποτέλεσμα μιας μεμονωμένης δοκιμής Μπερνούλι (π.χ. επιτυχία/αποτυχία, ναι/όχι).
Διωνυμική κατανομή, για τον αριθμό των "θετικών περιστατικών" (π.χ. επιτυχίες, θετικές ψήφοι κ.λπ.) δεδομένου ενός σταθερού συνολικού αριθμού ανεξάρτητων περιστατικών.
Αρνητική διωνυμική κατανομή, για παρατηρήσεις διωνυμικού τύπου, αλλά όπου η ποσότητα ενδιαφέροντος είναι ο αριθμός των αποτυχιών πριν από την εμφάνιση ενός συγκεκριμένου αριθμού επιτυχιών.
Γεωμετρική κατανομή, για παρατηρήσεις διωνυμικού τύπου, αλλά όπου η ποσότητα ενδιαφέροντος είναι ο αριθμός των αποτυχιών πριν από την πρώτη επιτυχία- ειδική περίπτωση της αρνητικής διωνυμικής κατανομής, όπου ο αριθμός των επιτυχιών είναι ένα.
Συνεχής ομοιόμορφη κατανομή, για συνεχώς κατανεμημένες τιμές.
Κατανομή Πουασόν (Poisson), για τον αριθμό εμφάνισης ενός γεγονότος τύπου Poisson κατά τη διάρκεια μιας δεδομένης περιόδου.
Εκθετική κατανομή, για το χρόνο που μεσολαβεί μέχρι να συμβεί το επόμενο γεγονός τύπου Πουασόν.
Κατανομή Γάμμα, για το χρόνο που μεσολαβεί μέχρι τα επόμενα k γεγονότα Πουασόν (Poisson)
Κατανομή chi-squared, κατανομή ενός αθροίσματος τετραγώνων τυπικών κανονικών μεταβλητών- χρήσιμη, για παράδειγμα, για την εξαγωγή της διακύμανσης των κανονικά κατανεμημένων δειγμάτων (βλέπε τεστ chi-squared).
Κατανομή t-Student, κατανομή του λόγου μιας τυπικής κανονικής μεταβλητής και της τετραγωνικής ρίζας μιας κλιμακωτής μεταβλητής chi-squared- χρήσιμη για την εξαγωγή του μέσου όρου κανονικά κατανεμημένων δειγμάτων με άγνωστη διακύμανση (βλέπε Student's t test).
Κατανομή βήτα, για μια απλή πιθανότητα (πραγματικός αριθμός μεταξύ 0 και 1)- συνδυάζεται με την κατανομή Μπερνούλι και τη διωνυμική κατανομή.
Παλινδρόμηση
Στη στατιστική, η ανάλυση παλινδρόμησης είναι μια στατιστική διαδικασία που χρησιμοποιείται για την εκτίμηση των σχέσεων μεταξύ μεταβλητών[7]. Περιλαμβάνει πολλές μεθόδους πολυμεταβλητής μοντελοποίησης και ανάλυσης, όπου η εστίαση είναι στη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Πιο συγκεκριμένα, η ανάλυση παλινδρόμησης χρησιμοποιείται για να κατανοηθεί πώς μεταβάλλεται η τυπική τιμή της εξαρτημένης μεταβλητής (ή "μεταβλητής κριτηρίου") όταν μεταβάλλεται μία από τις ανεξάρτητες μεταβλητές, ενώ οι άλλες ανεξάρτητες μεταβλητές παραμένουν σταθερές. Τις περισσότερες φορές, η ανάλυση παλινδρόμησης εκτιμά την υπό όρους προσδοκία της εξαρτημένης μεταβλητής ως συνάρτηση των ανεξάρτητων μεταβλητών, δηλαδή τη μέση τιμή της εξαρτημένης μεταβλητής όταν οι ανεξάρτητες μεταβλητές είναι σταθερές. Σπανιότερα, η έμφαση δίνεται σε ένα κβάντιο ή άλλη παράμετρο που εντοπίζει την υπό όρους κατανομή της εξαρτημένης μεταβλητής ως συνάρτηση των ανεξάρτητων μεταβλητών. Σε όλες τις περιπτώσεις, ο στόχος της εκτίμησης είναι μια συνάρτηση των ανεξάρτητων μεταβλητών που ονομάζεται συνάρτηση παλινδρόμησης. Στην ανάλυση παλινδρόμησης, ενδιαφέρει επίσης να χαρακτηριστεί η διακύμανση της εξαρτημένης μεταβλητής γύρω από τη συνάρτηση παλινδρόμησης, η οποία μπορεί να περιγραφεί από μια κατανομή πιθανότητας.
Έχουν αναπτυχθεί πολυάριθμες τεχνικές ανάλυσης παλινδρόμησης. Οι γνωστές μέθοδοι, όπως η γραμμική παλινδρόμηση, είναι παραμετρικές, με την έννοια ότι η συνάρτηση παλινδρόμησης ορίζεται ως συνάρτηση ενός πεπερασμένου αριθμού άγνωστων παραμέτρων που εκτιμώνται από τα δεδομένα (με τη μέθοδο των ελαχίστων τετραγώνων, για παράδειγμα). Η μη παραμετρική παλινδρόμηση αναφέρεται σε τεχνικές που επιτρέπουν στη συνάρτηση παλινδρόμησης να βρίσκεται εντός ενός καθορισμένου συνόλου συναρτήσεων, το οποίο μπορεί να είναι απείρως διαστασιοποιημένο.
Μη παραμετρική στατιστική
Οι μη παραμετρικές στατιστικές είναι τιμές που υπολογίζονται από δεδομένα με τρόπο που δεν βασίζεται σε παραμετρικές οικογένειες κατανομών πιθανότητας. Περιλαμβάνουν τόσο περιγραφικές όσο και επαγωγικές στατιστικές. Τυπικές παράμετροι είναι ο μέσος όρος, η διακύμανση κ.λπ. Σε αντίθεση με τις παραμετρικές στατιστικές, οι μη παραμετρικές στατιστικές δεν κάνουν υποθέσεις σχετικά με τις κατανομές πιθανότητας των μεταβλητών που αξιολογούνται[8].
Οι μη παραμετρικές μέθοδοι χρησιμοποιούνται ευρέως για τη μελέτη πληθυσμών που κατατάσσονται κατά σειρά (όπως οι κριτικοί ταινιών που λαμβάνουν από ένα έως τέσσερα αστέρια). Η χρήση μη παραμετρικών μεθόδων μπορεί να είναι απαραίτητη όταν τα δεδομένα περιέχουν μια κατάταξη αλλά δεν έχουν σαφή αριθμητική ερμηνεία, όπως στην περίπτωση της αξιολόγησης των προτιμήσεων. Όσον αφορά τα επίπεδα μέτρησης, οι μη παραμετρικές μέθοδοι παράγουν "ταξινομημένα" δεδομένα.
Δεδομένου ότι οι μη παραμετρικές μέθοδοι βασίζονται σε λιγότερες υποθέσεις, το πεδίο εφαρμογής τους είναι πολύ ευρύτερο από εκείνο των αντίστοιχων παραμετρικών μεθόδων. Ειδικότερα, μπορούν να εφαρμοστούν σε καταστάσεις όπου είναι λιγότερο γνωστές για την εν λόγω εφαρμογή. Επιπλέον, επειδή βασίζονται σε λιγότερες υποθέσεις, οι μη παραμετρικές μέθοδοι είναι πιο αξιόπιστες.
Ένα από τα μειονεκτήματα των μη παραμετρικών μεθόδων είναι ότι, καθώς δεν βασίζονται σε υποθέσεις, είναι γενικά λιγότερο ισχυρές από τις αντίστοιχες παραμετρικές μεθόδους[9]. Οι μη παραμετρικοί έλεγχοι χαμηλής ισχύος είναι προβληματικοί επειδή οι μέθοδοι αυτές χρησιμοποιούνται συχνά όταν το μέγεθος του δείγματος είναι μικρό[9]. Πολλές παραμετρικές μέθοδοι έχουν αποδειχθεί ότι είναι οι πιο ισχυροί έλεγχοι μέσω μεθόδων όπως το λήμμα Neyman-Pearson και ο έλεγχος αναλογίας πιθανοτήτων.
Η απλότητα είναι μια άλλη αιτιολόγηση για τη χρήση μη παραμετρικών μεθόδων. Σε ορισμένες περιπτώσεις, ακόμη και όταν δικαιολογούνται παραμετρικές μέθοδοι, οι μη παραμετρικές μέθοδοι μπορεί να είναι ευκολότερες στη χρήση. Λόγω αυτής της απλότητας και της μεγαλύτερης ευρωστίας τους, οι μη παραμετρικές μέθοδοι θεωρούνται από ορισμένους στατιστικολόγους ότι αφήνουν λιγότερα περιθώρια για κακή χρήση και παρεξήγηση.
Στατιστική, μαθηματικά και μαθηματική στατιστική
Η μαθηματική στατιστική είναι ένα βασικό υποσύνολο του κλάδου της στατιστικής. Οι θεωρητικοί της στατιστικής μελετούν και βελτιώνουν τις στατιστικές διαδικασίες με τη χρήση μαθηματικών και η στατιστική έρευνα συχνά θέτει μαθηματικά ερωτήματα.
Μαθηματικοί και στατιστικολόγοι όπως οι Γκάους, Λαπλάς και C. S. Peirce χρησιμοποίησαν τη θεωρία αποφάσεων με κατανομές πιθανοτήτων και συναρτήσεις απώλειας (ή συναρτήσεις χρησιμότητας). Η θεωρητική προσέγγιση της απόφασης στη στατιστική συμπερασματολογία αναζωογονήθηκε από τον Αβραάμ Βαλντ και τους διαδόχους του[10][11][12][13][14][15][16] και κάνει εκτεταμένη χρήση επιστημονικών υπολογισμών, αναλύσεων και βελτιστοποίησης- για το σχεδιασμό των πειραμάτων, οι στατιστικολόγοι χρησιμοποιούν την άλγεβρα και τη συνδυαστική. Ωστόσο, αν και η στατιστική πρακτική βασίζεται συχνά στη θεωρία πιθανοτήτων και αποφάσεων, η εφαρμογή τους μπορεί να είναι αμφιλεγόμενη [4].
↑Lakshmikantham, ed. by D. Kannan,... V. (2002). Handbook of stochastic analysis and applications. New York: M. Dekker. ISBN0824706609.CS1 maint: Extra text: authors list (link)
↑Schervish, Mark J. (1995). Theory of statistics (Corr. 2nd print. έκδοση). New York: Springer. ISBN0387945466.