Меријам-Вебстеров речник наводи да је статистика „грана математике која се бави сакупљањем, анализом, интерпретацијом, и презентацијом масе нумеричких података.“[3]
Статистичар Сер Артур Лион Боули је дефинисао статистику као „нумеричку изјаву чињеница у било којој објасти испитивања постављених у међусобну релацију.“[4]
Основна подела статистике је на дескриптивну и инференцијалну..[6] Дескриптивна статистика бави се мерама централне тенденције (аритметичка средина, медијана и мод), мерама варијабилитета (распон, стандардна девијација, варијанца, интерквартилни распон, семиинтерквартилни распон и просечно одступање), као и графичким и табеларним приказивањем основних статистичких вредности. С друге стране, инференцијална статистика се односи на проверавање постављених хипотеза (нултих и афирмативних/алтернативних), уз помоћ статистичких тестова, коефицијената и њихове значајности (т-тест, анализа варијанце, хи-квадрат тест, коефицијенти асоцијације и корелације, дискриминациона анализа, Ман-Витнијев тест, Тест знака ...). У статистичком жаргону, дескриптивна статистика се назива статистиком са малим с, а инференцијална статистиком са великим С, јер је основни циљ дескриптивне статистике да понуди податке који се даље могу обрађивати уз помоћ техника инференцијалне статистике.[7]
Статистика је неодвојива од теорије вероватноће, која представља скуп математичких модела за описивање односа између остварених догађаја (исхода) и могућих догађаја. Најважнији концепт теорије вјероватноће који има широку примену у статистици је нормална расподела. Стандардна нормална расподела има аритметичку средину М = 0 и стандардну девијацију која износи СД = 1. Удаљеност неког резултата (податка) од аритметичке средине, у јединицама стандардне девијације, представља тзв. z-вредност. Уколико је z-вредност виша од нуле, резултат се налази изнад аритметичке средине. У супротном, дати резултат пада испод просека.
Како би се применила нека од статистичких техника/процедура, потребно је прво поставити адекватну хипотезу. Хипотезе могу бити нулте (где се не претпоставља разлика између две или више група испитаника или се не претпоставља да ће корелација између неколико варијабли бити статистички значајна). Такође, постоје и афирмативне хипотезе, којима се претпоставља нека статистички значајна разлика или повезаност.[9]
Примери за нулте хипотезе су:
Нема статистички значајних сполних разлика у ставовима према еутаназији.
Не очекује се статистички значајна корелација између телесне масе и интелигенције.
Примери за афирмативне хипотезе су:
Постоје статистички значајне добне разлике у времену реакције на презентиране стимулусе.
Постоји статистички значајна повезаност између алкохолизма и импотенције код мушкараца.
Делокруг
Статистика је математичко тело науке које се бави сакупљањем, анализом, интерпретацијом или објашњавањем, и представљањем података.[10] Она се може сматрати граном математике.[11] Неки сматрају да је статистика засебна математичка наука, пре него грана математике. За разлику од многих научних дисциплина које користе податке, статистика се бави употребом података у контексту неизвесности и одлучивањем у светлу вероватноће.[12][13]
При примени статистике на проблем, уобичајена је пракса да се почне са популацијом или процесом који се студира. Популације могу да буду разноврсне теме као што су „све особе која живе у земљи“ или „сваки атом од кога се састоји кристал“.
Идеално, статистичари прикупе податке о целокупној популацији (операција звана попис). То може да буде организовано посредством државних статистичких завода. Описна статистика се може користити за сумирање података о становништву. Нумерички дескриптори обухватају средњу вредност и стандардну девијацију за континуиране податке (попут зараде), док су фреквенција и проценти кориснији при описивању категоричких података (попут расе).
Кад је попис могућ, изучава се изабрани подскуп популације који се назива узорак. Након одређивања репрезентативног узорка, подаци се прикупљају за чланове узорка у опсервационом или експерименталном окружењу. Описна статистика се може користити за сумирање података датих узорака. Пошто селекција узорака садржи елемент случајности, утврђени нумерички дескриптори узорка су исто тако подложни случајности. Да би се произвели смислени закључци о целокупној популацији, неопходна је примена статистичког закључивања. Користе се патерни у подацима узорка да би се извели закључци о представљеној популацији, узимајући у обзир случајност. Ти закључци могу да поприме облик: одговарања на „да/не питања“ о подацима (тестирање хипотезе), процењивање нумеричких карактеристика података (естимација), описивање асоцијација у подацима (корелација) и моделовање релација у подацима (на пример, користећи регресиону анализу). Извођење закључака може да обухвата прогнозирање, предвиђање и процењивање неуочених вредности било унутар или повезаних са студираном популацијом; то може да укључује екстраполацију и интерполацијувременских серија или просторних података, а може да обухвата и анализу података.
примењена статистика у подручју геонауке, одн. просторна статистика или геостатистика[21][22]
биомедицинска статистика (количник ризика, однос шанси, ROC криве, мере асоцијације)
Психолошка статистика је математичко-методолошко испитивање и проучавање индивидуалних разлика у: личности, мотивацији, интелигенцији, ставовима, вредностима, интересовањима, емоцијама. Такође, проверавају се корелације између различитих варијабли, те допринос скупа (сета) варијабли (познатих под називом предиктори) једној критеријској варијабли (која је исход, последица, односно нека мера понашања или мишљења која је битна нпр. у послу, на факултету). Примери предиктора су: генерална интелигенција, мотивација и радне навике, а пример критерија је школски или академски успех на крају године.
Биомедицинска статистика је област која обухвата примену статистике у клиничким медицинским наукама, као и у биологији. Најчешћа примена у оквиру ове области је у експерименталним истраживањима, где се треба утврдити деловање неког лека или терапије, на начин да се упореде експериментална и контролна група. Ако је разлика између њих статистички значајна, онда та разлика заиста и постоји, а није резултат случаја.
Логичке грешке при употреби статистике
Најчешћа логичка грешка је нерепрезентативан узорак при испитивању. Само испитивање може бити социолошки изведено савршено (испитаници попуњавају упутник неометани и анонимно), математичка анализа је изведена без грешака (зброј свих избора даје 100%, не мање или више, што се такође може догодити), међутим резултати ипак немају превише везе с реалношћу.
Узорак може бити нерепрезентативан из више разлога:
премали број испитаника
испитаници само једног пола
испитаници само одређеног доба
испитаници само одређеног социјалног статуса (класе, етничке групе и сл.
Још неке важне грешке приликом кориштења статистике су[23]:
погрешно уношење података у статистички програм, током прављења базе података (прескакање/изостављање података или дупло навођење неких од прикупљених података услед брзине куцања, несмотрености и сл)
погрешна употреба статистичких техника (нпр. кориштење непараметријских техника уместо параметријских)
погрешно приказивање података (неки графикони нису погодни за све врсте приказа/сумирања података/резултата)
неадекватна интерпретација података (услед незнања или необраћања пажње на методолошка ограничења одређеног истраживања)
претеривање у навођењу статистичких показатеља или изостављање битних показатеља (нпр. корелацијске матрице са превеликим бројем података, које отежавају разумевање и смањују прегледност статистичког приказа или изостављање индикатора као што су интервали поузданости, величина ефекта, статистичка значајност и слично).
Резултати добијени ваљаном анализом нерепрезентативног узорка су неваљани, као и они добијени неваљаном анализом репрезентативног узорка.
Статистички методи датирају још из 5. века п. н. е.[24]
Неки научници сматрају да статистика води порекло из 1663. године, из публикације Природне и политичке опсервације о записима о морталитету аутора Џона Гранта.[25] Ране примене статистичких размишљања су биле концентрисане око потребе држава да базирају законе на демографским и привредним подацима. Опсег статистичке дисциплине је проширен у раном 19. веку тако да је обухватао опште сакупљање и анализу података. У данашње време, статистика је у широкој примени у друштвеним, економским, и природним наукама.
Модерна област статистике се појавила у касном 19. и раном 20. веку у три ступња.[27] Први талас, на прелазу века, је био вођен радом Френсиса Галтона и Карла Пирсона, који су трансформисали статистику у ригорозну математичку дисциплину која се користи за анализу, не само у науци, већи и у индустрији и политици. Галтонови доприноси обухватају увођење концепата стандардне девијације, корелације, регресионе анализе и примена тих метода у изучавању разних људских карактеристика – висине, тежине, дужине трепавица, између осталог.[28] Пирсон је развио Пирсонов продуктно-моментни коефицијент корелације, дефинисан као продукт-момент,[29]метод момента за одређивање дистрибуције узорака и Пирсонову дистрибуцију, а направио је и низ других доприноса.[30] Галтон и Пирсон су засновали часопис Biometrika, као први часопис за математичку статистику и биостатистику (која се у то време звала биометрија), и Пирсон је касније основао први универзитетски статистички департман на свету при Лондонском универзитетском колеџу.[31]
Крајњи талас, у којем је углавном дошло до рафинације ранијих развоја, је проистекао из колаборације између Ергона Пирсона и Џерзи Нејмана током 1930-их. Они су увели концепте грешке „Типа II“, степена теста и интервала поверења. Џерзи Нејман је 1934. показао да је узимање стратификованих случајних узорака генерално бољи метод процене од наменског (квотног) узимања узорака.[46]
У данашње време се статистички методи промењују у свим пољима у којима се доносе одлуке, ради извођења прецизних закључака из сакупљених података и ради доношења одлука имајући у виду неизвесност на бази статистичке методологије. Примена модерних рачунара је омогућила извођење статистичких прорачуна великих размера, као и развој нових метода које не би било практично спроводити ручним путем. Статистика је и даље област активних истраживања, на пример на проблемима анализе великих количина комплексних података.[47]
Референце
^Dodge, Y (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN978-0-19-920613-1.
^Dehmer, Matthias; Frank Emmert-Streib; Graber, Armin; Salvador, Armindo (2011). Applied Statistics for Network Biology: Methods in Systems Biology. Wiley-Blackwell. ISBN978-3-527-32750-8.
^Isaaks, E. H. and Srivastava, R. M. (1989), An Introduction to Applied Geostatistics. Oxford University Press. 1989., New York, USA.
^Mariethoz, Gregoire, Caers, Jef (2014). Multiple-point geostatistics: modeling with training images. Wiley-Blackwell, Chichester, UK, 364 p.
^Willcox, Walter F. (1938). „The Founder of Statistics”. Review of the International Statistical Institute. 5 (4): 321—328. JSTOR1400906. doi:10.2307/1400906.
^J. Franklin, The Science of Conjecture: Evidence and Probability before Pascal,Johns Hopkins Univ Pr 2002
^Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis
^OED quote: 1935 R. A. Fisher, The Design of Experiments ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and it should be noted that the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."
Dodge, Y (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN978-0-19-920613-1.
Thucydides (1985). History of the Peloponnesian War. New York: Penguin Books, Ltd. стр. 204.
Dehmer, Matthias; Frank Emmert-Streib; Graber, Armin; Salvador, Armindo (2011). Applied Statistics for Network Biology: Methods in Systems Biology. Wiley-Blackwell. ISBN978-3-527-32750-8.
Desrosières, Alain (2004). The Politics of Large Numbers: A History of Statistical Reasoning. Trans. Camille Naish. Harvard University Press. ISBN978-0-674-68932-9.