Datuen azterketa esploratzaile

Datuen azterketa esploratzailean datu-diagramak maiz erabiltzen dira: horien helburua datuei buruzko informazioa jasotzea da, informazio hori, ostera, teknika estatistiko kuantitatiboen bitartez konfirmatzeko. Estatistika teknika klasikoetan, ordea, teknika kuantitatiboak aplikatzen dira lehendabizi eta ondoren datu diagramak emaitzak publikoari adierazteko soilik erabili ohi dira. Irudian, datuen azterketa esploratzailean maiz erabiltzen diren kaxa-diagramak.

Estatistikan, datuen azterketa esploratzailea (nazioartean EDA akronimoaz ezaguna dena, Exploratory Data Analysis ingelesezko lokuziotik) ikerketa estatistikoa egiteko ikuspuntu eta teknika-multzo bat da, datuetan dauden joerak, erlazioak eta egiturak hautemateko datuen beraien esploraketa edo azterketa sustatu eta estatistika klasikoan datuak islatzeko baliatzen diren ereduetarako hipotesi eta baldintzen aldez aurretiko egiaztapena nabarmentzen duena. Bereziki, datu-diagramen erabilera sustatzen du, zenbakizko azterketak datu multzoetako egitura sakona ezkutatu egiten duelakoan. Era berean, muturreko datuen mendean ez dauden estatistiko jasankorrak hobesten ditu, horiek zenbakizko azterketan duten eragina baztertzearren. Esploratzaile izenondoak datuen hasierako azterketari egin dio erreferentzia, azterketa konfirmatzailea edo datuen azterketarako eredu konplexuak aplikatu aurretik, baina behin betiko azterketa osotu moduan ere balia daiteke.

Historia

Datuen azterketa esploratzaileak XX. mendearen bukaeratik izan du zabalkunde handia. Estatistika-mugimendu honen hastapena 1962 urtean dagoela esan daiteke, EDA delakoaren aintzindaritzat jotzen den John Tukey estatubatuar estatistikariak The Future of Data Analysis (euskaraz, Datuen Azterketaren Etorkizuna) izenburuko artikulua plazaratu zuenean. Artikulu horretan, probabilitate-teorian oinarritutako inferentzia estatistikoaren mugak azaldu eta bere filosofia estatistikoaren printzipioak agertu zituen. Hurrengo urteetan, printzipio horietan oinarrituta metodo, prozedura eta teknikak garatu zituen, 1977 urteko Exploratory Data Analysis liburu ospetsuan bilduko zituena.

Hain zuzen, XX. mendearen hasieran, lagin txikietako datuetatik populazio batera zabaltzeko metodo eta prozedurak asmatu eta nagusitzen joan ziren, inferentzia estatistiko klasikoa osatu zutenak. Urteak aurrera joan ahala, ordea, metodo hauek dituzten aplikazio-mugak agerian geratu ziren, horiek aplikatu ahal izateko baldintzak zorrotzegiak baitziren (adibidez, populazioak banaketa normalari jarraitu behar diola baldintza arrunta da metodo klasikoetan). Oztopo hauek gainditu eta inferentzia-teknikak erabiltzeko baldintzak egiaztatzeko, estatistika ez parametrikoaren metodoak garatu ziren, bereziki Bigarren Mundu Gerraren ondoren. Tukeyk metodo horien aplikazio zabalari buruzko kritikak egin zituen[1]. EDA tekniken arrakastarako beste kausa data mining tekniken zabalkuntza izan da, non informatikaren garapenarekin batera gertatu zen, datu-multzo handiak esploratu beharra agerian geratu zenean.

Datuen azterketa esploratzailearen filosofia eta printzipioak

Teknika multzo bat bilakatu aurretik, datuen azterketa esploratzailea filosofia bat da, datuak aztertu eta estatistika egiteko oinarrizko modu bat alegia. Labur, datuen azterketaren beraren garrantzia nabarmentzen du, datuetan egiturak eta garrantzizko aldagaiak hautemateko, datuen eredu konplexuak eratu aurretik, eredu kuantitatiboek datuen izaera ezkutatu egiten baitute batzuetan. Horren adibide gisa Anscomberen laukote deritzon datu multzoa agertzen da, non lau datu-multzo hagitz ezberdinek emaitza berbera adierazten duten teknika estatistiko bat aplikatu ondoren[2]. Horrela, datuak beraiek zenbat eta hobeto aztertu, horiei buruzko teoria sakonago garatu ahal izango dela baieztatzen da[3].

Horretarako printzipio hauek jarraitzen ditu datuen azterketa esploratzaileak:

  • datuak modu kuantitatibo batez aztertu aurretik esploratzeko eta datuak modu argian laburtu, irudikatu eta horien arteko erlazio konplexuak azaltzeko, datuen adierazpide grafiko egokiak erruz erabili behar dira[4]; estatistika klasikoan ez bezala, EDAko grafikoak ez dira datuak publikoari erakusteko, datuak aztertzeko baizik, eta ez dira hautazkoak datuak behar bezala aztertzeko derrigorrezkoak baizik [5];
  • baliatzen diren teknikek datuen osotasuna eta horietan dauden egitura eta erlazioak atxiki behar dituzte;
  • datuen aldakuntza sinpleak (erro karratua, logaritmoa, ...) maiz burutu behar dira, datuak eskala egokiago batera aldatu eta euren ezaugarriak argiro azal ditzaten;
  • muturreko datuak hautemateko ahalegin berezia egin behar da, teknika estatistikoen emaitzetan duten eragina kontrolatzeko;
  • muturreko datu horien eraginez ez dauden neurri estatistiko, prozedura eta teknika jasankorrak baliatu behar dira;
  • EDA estatistika-atazetan finkatutako ikuspegia da: estatistika-teknikak ataza horietarako tresnak besterik ez dira[6]; horrela, estatistika-teknikak EDA edo datuen azterketa esploratzaileak azaldutako egituren konfirmatzaile izan behar dira[7].

Tresna esploratzaileak

Adar eta orrien diagrama

Sakontzeko, irakurri: «Adar eta orrien diagrama»

Histogramaren antzera irudikatzen ditu datuak adar eta orrien diagramak, baina jatorriko datuen zehaztasuna galdu gabe. Berari esker, datuak modu laburtuago batez gorde eta azaltzen dira.

Adar eta orrien diagrama. Adierazpide grafiko honi esker, datuak modu trinkoago eta argiago batez azaltzen dira eta maiztasunei buruzko informazioa ere ematen da, jatorriko datuen zehaztasuna galdu gabe. Irudian, ezker aldean ikasle zenbaiten kalifikazioak agertzen dira; eskuin aldean, datu horiei dagokien adar eta orrien diagrama: ikusten denez, kalifikazioa arruntena 5 ingurukoa da.

Kaxa-diagrama

Sakontzeko, irakurri: «Kaxa-diagrama»
Irudian, neska eta mutil zenbaiten kalifikazioei dagozkien kaxa-diagramak agertzen dira: mutilek oro har edo batezbestez kalifikazio txikiagoa izaten dute (mutilek 5 inguruan eta neskek 7 inguruan, mediana adierazten duen kaxako marra beltzak erakusten duen moduan) eta kalifikazio sakabanatuagoak ere izaten dituzte (muturreko bi kuartilek mugatzen duten kaxaren zabalerak adierazten duen moduan). Nesken kalifikazioetan bada muturreko datu bat, puntu batez adierazten dena.

Kaxa-diagramak, box plot izenez ezaguna nazioartean, datu multzo bati buruz azter daitezkeen ezaugarri estatistiko guztiak (zentroa, sakabanatzea, alborapena eta kurtosia) modu grafikoan eta begirada batez aztertzeko aukera ematen du. Gainera, azterketa mota honetan nabarmentzen diren muturreko datuak hautemateko irizpide bat zehazten du. Hori guztia dela eta, datuen azterketa esploratzailearen filosofia azaltzeko gehien aipatzen den diagrama da. Bereziki erabilgarria da multzo zenbait aldagai bati buruz alderatu behar direnean, irudian azaltzen denez.

Zentro neurriak

EDA delakoan datuen laburpenerako neurriak ere erabiltzen dira, baina bere balioa mugatua da. Tukeyk berak baieztatu zuenez:

« Laburpenak oso erabilgarriak izan daitezke, baina ez dira detaileak[8]. »


Estatistika klasikoan gehien erabiltzen zentro joerako neurria batezbesteko aritmetiko sinplea da. Hain zuzen, gehien erabiltzen diren hipotesi-frogak batezbesteko horretan oinarritzen dira. Batezbesteko aritmetiko sinplea oso sentikorra da muturreko datuekiko, ez da neurri jasankorra, alegia. Muturreko datuek estatistika teknika klasikoak baliogabetu egiten dituztela eta, datuen azterketa esploratzaileak zentro joera adierazteko beste zenbait neurri proposatzen ditu, hala nola mediana, kuartil arteko ibiltarte-erdia, hiruko batezbestekoa, moztutako batezbestekoa eta winsortarturiko batezbestekoa. Mediana da guztietan sinpleena: datuak ordenaturik, erdian dagoen datuak hartzen duen balioa da eta ez dago muturreko datuen mendean. Kuartil arteko ibiltarte-erdia lehenengo eta hirugarren kuartilen batezbestekoa da. Hiruko batezbestekoa lau datuen batezbestekoa da: lehenengo eta hirugarren kuartilak eta, bi aldiz, mediana. Moztutako batezbestekoetan muturreko datuak, muturretan geratzen diren datu guztien portzentaje batez adierazita, ezabatu egiten dira eta gainerakoekin batezbesteko artimetiko sinplea kalkulatzen da. Winsortarturiko batezbestekoetan, azkenik, muturreko datuak muturrekoak ez diren datu handienarekin eta txikienarekin ordezten dira, hurrenik hurren[9].

Sakabanatze neurriak

Sakabanatze neurrietan datuen azterketa esploratzailean erabiltzen neurria kuartil arteko ibiltartea da, lehenengo kuartiletik hirugarren kuartilera dagoen dagoen distantzia adierazten duena. Kaxa-eta-beso diagraman integraturik agertzen da: kaxaren zabalera besterik ez da. Horrela, kaxa-eta-beso diagrama batzuk batera aztertzean, sakabanatze-mailak kaxen zabalerei erreparatuz erkatuko dira. Muturrak baztertzen dituenez, neurri jasankorra da baia ere, EDA delakoaren filosofiari jarraiki.

Kanpo estekak

  1. (Ingelesez) Dempster, A. P.. (2002). «JOHN W. TUKEY AS “PHILOSOPHER”» The Annals of Statistics..
  2. (Ingelesez) EDA/Graphics Example, Engineering Statistics Handbook, 2012-01-02an kontsultatua.
  3. (Ingelesez) Hartwig, Frederick; Dearing, Brian E.. (1979). Exploratory data analysis. , 9 or...
  4. (Ingelesez) Ellison, Aaron M.. (1993). Exploratory Data Analysis and Graphic Display. .[Betiko hautsitako esteka]
  5. (Ingelesez) Exploratory Data Analysis, EDA Introduction, The Role of Graphics, Engineering Statistics Handbook, 2011-12-30ean kontsultatua.
  6. (Ingelesez) Andrienko, Natalia; Andrienko, Gennady. (2005). EDA: Tasks, Tools, Principles. .
  7. (Ingelesez) Behrens, John T.. (1997). «Principles and Procedures of Exploratory Data Analysis» Psychological Methods.[Betiko hautsitako esteka]
  8. (Ingelesez) Tukey, John. (1977). Exploratory Data Analysis. 27 or..
  9. (Ingelesez) Chong-ho Yu. Exploratory data analysis and Data visualization. ..

Read other articles:

Israeli rapper The ShadowEliasi in 2009Background informationBirth nameYoav EliasiBorn (1977-11-22) November 22, 1977 (age 46)OriginSafed, IsraelGenres Hip hop Israeli hip hop political hip hop Years active1994–presentLabelsUnicellMusical artist Yoav Eliasi (Hebrew: יואב אליאסי; born November 22, 1977), commonly known by his stage name The Shadow (Hebrew: הצל, Ha-Tzel) is an Israeli rapper, blogger, and right-wing political activist. He was part of the roster of artists on...

 

 

Kalanithi MaranPrime Minister Dr. Manmohan Singh , Shri Dayanidhi Maran and Shri Kalanidhi Maran 2005Nama asalகலாநிதி மாறன்Lahir24 Juli 1965Chennai, Tamil Nadu, IndiaAlmamaterLoyola College, Universitas ScrantonPekerjaanKetua Sun GroupDikenal atasPendiri Sun GroupKekayaan bersih$ 5.2 miliar (2017)[1]Suami/istriKavery MaranAnakKaviya Maran Kalanithi Maran adalah seorang baron media asal India yang menjadi ketua Sun Group.[2][3][4&#...

 

 

Supreme Court of the United States38°53′26″N 77°00′16″W / 38.89056°N 77.00444°W / 38.89056; -77.00444EstablishedMarch 4, 1789; 235 years ago (1789-03-04)LocationWashington, D.C.Coordinates38°53′26″N 77°00′16″W / 38.89056°N 77.00444°W / 38.89056; -77.00444Composition methodPresidential nomination with Senate confirmationAuthorized byConstitution of the United States, Art. III, § 1Judge term lengthl...

Pour un article plus général, voir Coupe Davis. Coupe Davis 2022 Généralités Sport Tennis Organisateur(s) ITF Édition 110e Lieu(x) Plusieurs lieux→ Phase de poules : Glasgow, Bologne, Hambourg, Valence → Phase à élimination directe : Malaga Date du 4 mars au 27 novembre→ Phase de poules : du 13 au 18 septembre → Phase à élimination directe :du 23 au 27 novembre Participants 16 équipes (phase finale) Site web officiel Site officiel Palmarès Vainqueur &#...

 

 

Battle This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Battle of Lipnic – news · newspapers · books · scholar · JSTOR (July 2007) (Learn how and when to remove this message) Battle of LipnicDateAugust 20, 1470LocationLipnic, MoldovaResult Moldavian victoryBelligerents  Moldavia Golden HordeCommanders an...

 

 

Species of plant This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Gentiana pneumonanthe – news · newspapers · books · scholar · JSTOR (February 2015) (Learn how and when to remove this message) Gentiana pneumonanthe Scientific classification Kingdom: Plantae Clade: Tracheophytes Clade: Angiosperms Clade: Eudi...

Chapter of the New Testament Revelation 6← chapter 5chapter 7 →Revelation 6:5-8 on the verso side of Papyrus 24 from the 4th century.BookBook of RevelationCategoryApocalypseChristian Bible partNew TestamentOrder in the Christian part27 Revelation 6 is the sixth chapter of the Book of Revelation or the Apocalypse of John in the New Testament of the Christian Bible. The book is traditionally attributed to John the Apostle,[1][2] but the precise identity of the auth...

 

 

4th Premier of Quebec (1878–1879) The HonourableSir Henri-Gustave Joly de Lotbinière4th Premier of QuebecIn officeMarch 8, 1878 – October 31, 1879MonarchVictoriaLieutenant GovernorLuc Letellier de St.-JustThéodore RobitaillePreceded byCharles Boucher de BouchervilleSucceeded byJoseph-Adolphe Chapleau7th Lieutenant Governor of British ColumbiaIn officeJune 21, 1900 – May 11, 1906MonarchsVictoriaEdward VIIGovernors GeneralThe Earl of MintoThe Earl GreyPremierJames ...

 

 

Naval operation during the Second World War Operation PostmasterPart of SOE operations and the Battle of the AtlanticThe Italian cargo liner Duchessa d'Aosta captured during the raidDate14 January 1942LocationSanta Isabel, Fernando Po, Spanish Guinea3°45′40″N 8°46′50″E / 3.76111°N 8.78056°E / 3.76111; 8.78056Result British victoryBelligerents  United Kingdom  Germany ItalyCommanders and leaders Gus March-Phillipps Captain SpechtStrength Small...

Foods produced from organisms that have had changes introduced into their DNA Part of a series onGenetic engineering   Genetically modified organisms Bacteria Viruses Animals Mammals Fish Insects Plants Maize/corn Rice Soybean Potato History and regulation History Regulation Substantial equivalence Cartagena Protocol on Biosafety Process Techniques Molecular cloning Recombinant DNA Gene delivery Transformation Transfection Transduction Genome editing TALEN CRISPR Applications Genetically...

 

 

English cricketer and television personality (born 1966) This biography of a living person needs additional citations for verification. Please help by adding reliable sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately from the article and its talk page, especially if potentially libelous.Find sources: Phil Tufnell – news · newspapers · books · scholar · JSTOR (May 2023) (Learn how and when...

 

 

Not to be confused with Old Oswestry. Peter Toms - A View of the Castle and Part of the Town of Oswestry Oswestry Castle is a medieval castle in the town of Oswestry, Shropshire, England. The castle has also been known as, or recorded in historical documents as: Album Monasterium; Blancminster; Blankmouster; Blancmustier; Croes Oswald; L'Oeuvre; L'uvre; Castle Loure; Luure; Luvre; Lvvre: Castle Philip; Oswaldestre; Meresberie.[1] Fragmentary remains of Oswestry Castle The first refer...

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (مايو 2023) هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (�...

 

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Gnayiru – news · newspapers · books · scholar · JSTOR (October 2020) (Learn how and when to remove this message) Suburb in Tiruvallur, Tamil Nadu, IndiaGnayiruSuburbGnayiruShow map of ChennaiGnayiruShow map of Tamil NaduGnayiruShow map of IndiaCoordinates: 13°...

 

 

Genus of palms Iguanura Iguanura wallichiana var. major Scientific classification Kingdom: Plantae Clade: Tracheophytes Clade: Angiosperms Clade: Monocots Clade: Commelinids Order: Arecales Family: Arecaceae Subfamily: Arecoideae Tribe: Areceae Genus: IguanuraBlume[1] Species Iguanura ambigua Iguanura arakudensis Iguanura asli Iguanura belumensis Iguanura bicornis Iguanura borneensis Iguanura cemurung Iguanura chaiana Iguanura corniculata Iguanura curvata Iguanura diffusa Iguanura div...

Mountain pass Rohtang PassA view from Rohtang PassElevation3,978 m (13,051 ft)Traversed byLeh-Manali HighwayLocationIndiaRangePir Panjal, HimalayasCoordinates32°22′17″N 77°14′47″E / 32.37139°N 77.24639°E / 32.37139; 77.24639 Rohtang Pass (Rohtang , lit: རོ་ (Ro)- corpse(s), ཐང་། (thang)- plain/field [1]) is a high mountain pass (elevation 3,980 m (13,058 ft)) on the eastern end of the Pir Panjal Range of the Himalayas around ...

 

 

Cet article est une ébauche concernant un footballeur italien. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Pour les articles homonymes, voir Taibi. Massimo Taibi Biographie Nationalité Italien Naissance 18 février 1970 (54 ans) Palerme Taille 1,90 m (6′ 3″) Poste Gardien de but Parcours professionnel1 AnnéesClub 0M.0(B.) 1987-1989 Licata Calcio 001 (0) 1989-1990 Trento Calcio 023 (0) 1...

 

 

この記事では「旧馬齢表記」と「新馬齢表記」が混在しています。 詳しくは馬齢#日本における馬齢表記を参照してください。 ロジータ欧字表記 Rosita[1]品種 サラブレッド[1]性別 牝[1]毛色 鹿毛[1]生誕 1986年5月26日[1]死没 2016年12月1日(30歳没)[2][3]抹消日 1990年4月10日[4]父 ミルジョージ[1]母 メロウマダング[1]母�...

Ancient Egyptian god of funerary rites This article is about the Egyptian god. For other uses, see Anubis (disambiguation). AnubisThe Egyptian god Anubis,(a modern rendition inspired by New Kingdom tomb paintings)Name in hieroglyphs Major cult centerLycopolis, CynopolisSymbolMummy gauze, fetish, jackal, flailGenealogyParentsSet and Nepthys, Osiris (Middle and New kingdom), or Ra (Old kingdom).SiblingsWepwawetConsortAnput, Nephthys[1]OffspringKebechetEquivalentsGreek equivalentHades or...

 

 

John Napier Información personalNombre de nacimiento John Napier de MerchistonNombre en inglés John Napier of Merchiston Nacimiento 1 de febrero de 1550Edimburgo, Reino de EscociaFallecimiento 4 de abril de 1617 (67 años)Edimburgo, Reino de EscociaCausa de muerte GotaSepultura Catedral de EdimburgoReligión Iglesia de Escocia FamiliaPadres Archibald Napier Janet Bothwell Cónyuge Agnes ChisholmElizabeth Stirling (1572-1579) EducaciónEducado en Universidad de Saint AndrewsInforma...