Узорак (статистика)

Визуелни приказ процеса узорковања

Узорак је изабрани део статистичког скупа који треба да представља репрезент популације која је обухваћена истраживањем. Уколико је узорак репрезентативан по свим важним својствима, резултати добијени истраживањем су поузданији. Статистичким путем се могу формирати различити типови узорака од којих су најпознатији: стратификовани, квотни, спарени, пропорционални и сл. Грешке код формирања узорка могу бити стандардне и вероватне што се израчунава посебним поступком.

У статистици, осигурању квалитета и методологији анкета, узорковање је одабир подскупа (статистички узорак) појединаца из статистичке популације[1][2][3] за процену карактеристика целе популације. Статистичари настоје да узорци представљају дотичну популацију. Две предности узорковања су нижа цена и брже прикупљање података од мерења целокупне популације.

Свако посматрање мери једно или више својстава (као што су тежина, локација, боја) посматраних тела која се разликују као независни објекти или појединци. У анкетном узорковању, могу се применити пондери на податке како би се прилагодили дизајну узорка, посебно у слојевитом узорковању.[4] Резултати теорије вероватноће и статистичке теорије користе се за вођење праксе. У пословним и медицинским истраживањима, узорковање се широко користи за прикупљање података о популацији.[5] Прихватање узорка се користи да би се утврдило да ли производна серија материјала испуњава важеће спецификације.

Дефиниција популације

Успешна статистичка пракса заснива се на фокусираном дефинисању проблема. У узорковање, ово укључује дефинисање „популације” из које се узима наш узорак. Популација се може дефинисати тако да укључује све људе или предмете са карактеристикама које неко жели да разуме. Будући да врло ретко има довољно времена или новца за прикупљање информација од свих или свега у некој популацији, циљ постаје проналажење репрезентативног узорка (или подскупa) те популације.

Понекад је очигледно оно што дефинише популацију. На пример, произвођач мора да одлучи да ли је серија материјала из производње довољно квалитетна да се прода купцу или треба да буде послата на отпад или дораду због лошег квалитета. У овом случају, серија је популација.

Иако се популација од интереса често састоји од физичких предмета, понекад је потребно узорковати током времена, простора или неке комбинације ових димензија. На пример, истрага особља особља супермаркета могла би да испита дужину линије за наплату у различито време, или би студија о угроженим пингвинима могла да има за циљ разумевање њиховог коришћења различитих ловишта током времена. Што се тиче временске димензије, фокус може бити на периодима или дискретним тачкама.

У другим случајевима, испитана „популација” може бити још мање опипљива. На пример, Џозеф Џагер је проучавао понашање точкова рулета у касину у Монте Карлу и то је користио за идентификацију пристрасног точка. У овом случају, „популација” коју је Џегер желео да истражи било је целокупно понашање точка (тј. расподела вероватноће[6][7][8] његових резултата током бесконачно много испитивања), док је његов „узорак” формиран из запажених резултата са тог точка. Слична разматрања се јављају приликом поновљених мерења неких физичких карактеристика, попут електричне проводљивости бакра.

Ова ситуација се често јавља када се тражи знање о узрочном систему чији је исход посматрана популација. У таквим случајевима, теорија узорковања може посматрану популацију третирати као узорак из веће „суперпопулације”. На пример, истраживач би могао да проучава стопу успешности новог програма за „престанак пушења” на тест групи од 100 пацијената, како би предвидео ефекте програма ако би био доступан широм земље. Овде је суперпопулација „сви у земљи, који имају приступ овом третману” - група која још увек не постоји, јер програм још увек није доступан свима.

Популација из које се узима узорак можда није иста као популација о којој се желе информације. Често постоји велико, али не потпуно преклапање између ове две групе због проблема са оквиром итд. (погледај испод). Понекад могу бити потпуно одвојени - на пример, неко може проучавати пацове како би боље разумео људско здравље, или може проучавати записе људи рођених 2008. године како би извео предвиђања о људима рођеним 2009. године.

Време проведено у прецизирању узорковане популације и популације од интереса обично је добро утрошено, јер покреће многа гледишта, нејасноће и питања која би иначе била превиђени у овом ступњу.

Оквир узорковања

У најједноставнијем случају, као што је узорковање серије материјала из производње (узимање узорака по партијама), било би најпожељније идентификовати и измерити сваку поједину ставку у популацији и укључити било коју од њих у наш узорак. Међутим, у општијем случају то обично није могуће или практично. Не постоји начин да се идентификују сви пацови у скупу свих пацова. Тамо где гласање није обавезно, не постоји начин да се утврди који ће људи гласати на предстојећим изборима (пре избора). Ове непрецизне популације нису подложне узорковању ни на један од доле наведених начина, а на које бисмо могли применити статистичку теорију.

Као алтернатива, тражи се оквир узорковања који има својство да може идентификовати сваки појединачни елемент и укључити било који у узорак.[9][10][11][12] Најједноставнији тип оквира је листа елемената популације (по могућности целокупне популације) са одговарајућим контактним подацима. На пример, у анкети, могући оквири за узорковање укључују бирачки списак и телефонски именик.

Узорак вероватноће је узорак у коме свака јединица у популацији има шансу (већу од нуле) да буде изабрана у узорку и ова вероватноћа се може тачно одредити. Комбинација ових особина омогућава израду непристрасних процена популационог тотала, пондерисањем узоркованих јединица према њиховој вероватноћи избора.

Пример: Ми желимо да проценимо укупан приход одраслих који живе у датој улици. Ми посетимо свако домаћинство у тој улици, идентификујемо све одрасле особе које тамо живе и насумично одаберемо по једну одраслу особу из сваког домаћинства. (На пример, свакој особи можемо доделити рандомни број, генерисан из униформне расподеле између 0 и 1, и одабрати особу са највећим бројем у сваком домаћинству). Ми затим интервјуишемо изабрану особу и проналазимо њен приход.

Сигурно ће бити изабрани људи који живе самостално, те једноставно додајемо њихов приход нашој процени укупног износа. Међутим особа која живи у домаћинству двоје одраслих има само једну у две шансе за избор. Да бисмо то одразили, када дођемо у такво домаћинство, доходак одабране особе рачунаћемо два пута у укупном износу. (Особа која је изабрана из тог домаћинства може се сматрати да такође представља особу која није изабрана.)

У горњем примеру, немају сви исту вероватноћу избора; оно што га чини узорком вероватноће је чињеница да је вероватноћа сваке особе позната. Када сваки елемент у популацији има исту вероватноћу селекције, то је познато као дизајн „једнаке вероватноће селекције”. Такви се дизајни називају и „самопондерисаним”, јер се свим узоркованим јединицама даје иста тежина.

Узорковање вероватноће обухвата: једноставно случајно узорковање, систематско узорковање, слојевито узорковање, величину узорковања пропорционалну вероватноћи, и кластерско или вишестепено узорковање. Ови различити начини узорковања имају две заједничке карактеристике:

  1. Сваки елемент има познату различиту од нуле вероватноћу узорковања и
  2. укључује случајни одабир у неком тренутку

Референце

  1. ^ „Glossary of statistical terms: Population”. Statistics.com. Архивирано из оригинала 03. 03. 2016. г. Приступљено 22. 2. 2016. 
  2. ^ Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd изд.). New York: Freeman. ISBN 978-0-7167-4773-4. Архивирано из оригинала 9. 2. 2005. г. 
  3. ^ Mosteller, F.; Tukey, J. W. (1987) [1968]. „Data Analysis, including Statistics”. The Collected Works of John W. Tukey: Philosophy and Principles of Data Analysis 1965–1986. 4. CRC Press. стр. 601–720 [p. 633]. ISBN 0-534-05101-4 — преко Google Books. 
  4. ^ Lance, P.; Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. стр. 6—8, 62—64. 
  5. ^ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.
  6. ^ Evans, Michael; Rosenthal, Jeffrey S. (2010). Probability and statistics: the science of uncertainty (2nd изд.). New York: W.H. Freeman and Co. стр. 38. ISBN 978-1-4292-2462-8. OCLC 473463742. 
  7. ^ Everitt, Brian (2006). The Cambridge dictionary of statistics (3rd изд.). Cambridge, UK: Cambridge University Press. ISBN 978-0-511-24688-3. OCLC 161828328. 
  8. ^ Ash, Robert B. (2008). Basic probability theory (Dover изд.). Mineola, N.Y.: Dover Publications. стр. 66—69. ISBN 978-0-486-46628-6. OCLC 190785258. 
  9. ^ Robert M. Groves; et al. (2009). Survey methodology. ISBN 978-0470465462. 
  10. ^ Lohr, Sharon L. (1999). Sampling: Design and analysis. 
  11. ^ Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan. Model Assisted Survey Sampling. 
  12. ^ Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Elementary survey samplingНеопходна слободна регистрација. 

Литература

Стандарди

ISO

  • ISO 2859 series
  • ISO 3951 series

ASTM

  • ASTM E105 Standard Practice for Probability Sampling Of Materials
  • ASTM E122 Standard Practice for Calculating Sample Size to Estimate, With a Specified Tolerable Error, the Average for Characteristic of a Lot or Process
  • ASTM E141 Standard Practice for Acceptance of Evidence Based on the Results of Probability Sampling
  • ASTM E1402 Standard Terminology Relating to Sampling
  • ASTM E1994 Standard Practice for Use of Process Oriented AOQL and LTPD Sampling Plans
  • ASTM E2234 Standard Practice for Sampling a Stream of Product by Attributes Indexed by AQL

ANSI, ASQ

  • ANSI/ASQ Z1.4

U.S. федерални и војни стандарди

Спољашње везе