Analiza glavnih komponenti

PCA multivarijantne normalne distribucije centrirane na (1,3) sa standardnom devijacijom od 3 u približno (0,866, 0,5) pravcu i od 1 u ortogonalnom pravcu. Prikazani vektori su sopstveni vektori kovarijansne matrice skalirani kvadratnim korenom korespondirajućih sopstvenih vrednosti, i pomereni tako da su njihovi počeci u srednjoj vrednosti.

Analiza glavnih komponenti (engl. Principal component analysis - PCA) je statistički postupak koji koristi ortogonalnu transformaciju da pretvori skup opažanja eventualno korelisanih promenljivih (entiteta od kojih svaki poprima različite numeričke vrednosti) u skup vrednosti linearno nekorelisanih promenljivih koje se nazivaju glavnim komponentama. Ova transformacija je definisana na takav način da prva glavna komponenta ima najveću moguću varijansu (to jest, obuhvata što je moguće više varijabilnosti podataka), a svaka sledeća komponenta zatim ima najveću preostalu moguću varijansu pod ograničenjem da je ortogonalna na prethodne komponente. Rezultirajući vektori (svaki od kojih je linearna kombinacija promenljivih i sadrži n opažanja) su nekorelisani ortogonalni bazni skup. PCA je senzitivna na relativno skaliranje originalnih promenljivih.

PCA je izumeo Karl Pirson 1901. godine,[1] kao analog teoreme glavne ose u mehanici. PCA je kasnije tokom 1930-ih nezavisno razvio i imenovao Harold Hoteling.[2] U zavisnosti od oblasti primene koriste se različiti nazivi za PCA, kao što su diskretna Karunen-Loevova transformacija (KLT) u obradi signala, Hotelingova transformacija u multivarijantnoj kontroli kvaliteta, pravilna ortogonalna dekompozicija (POD) u mašinskom inženjerstvu, dekompozicija singularne vrednosti (SVD) od X,[3] dekompozicija sopstvene vrednosti (EVD) od XTX u linearnoj algebri, faktorska analiza,[4][5] Ekart–Jangova teorema[6], ili empirijske ortogonalne funkcije (EOF) u meteorološkoj nauci, dekompozicija empirijske sopstvene funkcije[7], analiza empirijskih komponenti[8], kvaziharmonični modusi[9], spektralna dekompozicija u šumu i vibracijama, i empirijska modalna analiza strukturne dinamike.

PCA se uglavnom koristi kao alat u istraživačkoj analizi podataka i za izradu prediktivnih modela. Ona se često koristi za vizuelizaciju genetske distance i povezanosti između populacija. PCA se može obaviti dekompozicijom sopstvenih vrednosti kovarijansne (ili korelacione) matrice, ili dekompozicijom singularne vrednosti matrice podataka, obično nakon koraka normalizacije početnih podataka. Normalizacija svakog atributa sastoji se od srednjeg centriranja - oduzimanja svake vrednosti podataka od srednje vrednosti njene izmerene promenljive tako da je njena empirijska srednja vrednost (prosek) jednaka nuli - i, po mogućnosti, normalizacije varijanse svake promenljive da bi bila jednaka 1; pogledajte Z-ocene.[10] PCA rezultati se obično diskutuju u smislu komponentnih ocena (engl. scores), koje se ponekad nazivaju faktorske ocene, vrednosti transformisanih promenljivih koje odgovaraju određenoj tački podataka, i opterećenja (engl. loadings), ponderi kojima se svaka standardizovana originalna promenljiva mora množiti da bi se dobila komponentna ocena.[11] Ako su komponentne ocene standardizovane na jediničnu varijansu, opterećenja moraju da sadrže varijancu podataka u njima (a to je magnituda sopstvenih vrednosti). Ako komponentne ocene nisu standardizovane (stoga sadrže varijansu podataka), opterećenja moraju biti jedinično skalirana („normalizovana”) i ti se ponderi nazivaju sopstvenim vektorima; oni su kosinusi ortogonalne rotacije promenljivih u glavne komponente ili nazad.

PCA je najjednostavnija od pravih multivarijantnih analiza zasnovanih na sopstvenim vektorima. Često se može smatrati da njeno delovanje otkriva unutrašnju strukturu podataka na način koji najbolje objašnjava varijansu podataka. Ako se multivarijantni skup podataka vizualno prikazuje kao skup koordinata u visokodimenzionalnom prostoru podataka (1 osa po promenljivoj), PCA može da pruži korisniku sliku niže dimenzije, projekciju ovog objekta kada se posmatra sa njegovog najinformativnijeg gledišta. To se postiže korišćenjem samo prvih nekoliko glavnih komponenti, tako da se smanjuje dimenzionalnost transformisanih podataka.

PCA je usko povezana sa faktorskom analizom. Faktorska analiza tipično uključuje više pretpostavki specifičnih za domen o osnovnoj strukturi i rešava sopstvene vektore donekle drugačije matrice.

PCA je takođe povezana sa kanoničkom korelacijskom analizom (CCA). CCA definiše koordinatne sisteme koji optimalno opisuju unakrsnu kovarijansu između dva skupa podataka, dok PCA definiše novi ortogonalni koordinatni sistem koji optimalno opisuje varijansu u pojedinačnom setu podataka.[12][13]

Istorija

PCA je 1901. izumeo Karl Pirson,[14] kao analog teoreme o glavnoj osi u mehanici; kasnije ju je nezavisno razvio i imenovao Harold Hoteling 1930-ih.[15] U zavisnosti od područja primene, naziva se i diskretna Karunen-Loeva transformacija (KLT) u obradi signala, Hotelingova transformacija u multivarijantnoj kontroli kvaliteta, pravilna ortogonalna dekompozicija (POD) u mašinstvu, dekompozicija singularne vrednosti (engl. singular value decomposition - SVD) od X,[16] dekompozicija sopstvenih vrednosti (EVD) od XTX u linearnoj algebri, faktorska analiza (za raspravu o razlikama između PCA i faktorske analize videti poglavlje 7 Džolifeove Analize glavnih komponenata),[5] Ekart–Jangova teorema,[6] ili empirijske ortogonalne funkcije (EOF) u meteorološkoj nauci, empirijska dekompozicija sopstvenih funkcija,[7] analiza empirijskih komponenata,[8] kvaziharmonski modovi,[9] spektralna dekompozicija u buci i vibracijama, i empirijska modalna analiza u strukturnoj dinamici.

Intuicija

PCA se može smatrati prilagođavanjem p-dimenzionalnog elipsoida podacima, pri čemu svaka osa elipsoida predstavlja glavnu komponentu. Ako je neka osa elipsoida mala, tada je i varijansa duž te ose mala.

Da bi se pronašle ose elipsoida, prvo se mora oduzeti središnja vrednost svake promenljive iz skupa podataka da bi se centrirali podaci oko koordinatnog početka. Zatim se izračunava kovarijansna matricu podataka i izračunavaju se sopstvene vrednosti i korespondirajući sopstveni vektori ove kovarijansne matrice. Zatim je neophodno da se normalizuje svaki od ortogonalnih sopstvenih vektora da bi se pretvorili u jedinične vektore. Nakon što je to urađeno, svaki od međusobno ortogonalnih, jediničnih sopstvenih vektora može se protumačiti kao osa elipsoida uklopljenog u podatke. Ovaj izbor osnove transformiše našu kovarijansnu matricu u dijagonalizovani oblik sa dijagonalnim elementima koji predstavljaju varijansu svake ose. Procenat varijanse koji svaki svojstveni vektor predstavlja može se izračunati deljenjem sopstvene vrednosti koja odgovara tom svojstvenom vektoru sa zbirom svih sopstvenih vrednosti.

Detalji

PCA se definiše kao ortogonalna linearna transformacija koja transformiše podatke u novi koordinatni sistem tako da najveća varijansa po nekoj skalarnoj projekciji podataka leži na prvoj koordinati (koja se naziva prva glavna komponenta), druga najveća varijansa na drugoj koordinati i tako dalje.[5]

Ako se uzme u obzir X matrica podataka sa nultom kolonskom empirijskom sredinom (srednja vrednost uzorka svake kolone je pomerena na nulu), gde je svaki od n redova predstavlja različito ponavljanje eksperimenta, a svaki od p kolona daje izvesnu vrstu karakteristike (recimo, rezultate sa datog senzora).

Matematički, transformacija je definisana skupom veličine p-dimenzionalnih vektora težina ili koeficijenata koji mapiraju svaki red vektora od X na novi vektor skorova glavne komponente , dat sa

na taj način da se individualne promenljive od t razmatraju nad skupom promenljivih koji sukcesivno nasleđuje maksimalnu moguću varijansu od X, pri čemu je svaki koeficijent vektora w ograničen da bude jedinični vektor (gde je obično odabrano da bude manje od radi redukcije dimenzionalnosti).

Reference

  1. ^ Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720. 
  2. ^ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
    Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955. 
  3. ^ Golub i Van Loan, 1983.
  4. ^ Rasprava o razlikama između PCA i faktorske analize je dostupna u poglavlju 7 Jolifeove knjige Analiza glavnih komponenti.
  5. ^ а б в Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
  6. ^ а б Harman 1960
  7. ^ а б Sirovich 1987
  8. ^ а б Lorenz 1956
  9. ^ а б Brooks et al., 1988
  10. ^ Abdi. H. & Williams, L.J. (2010). „Principal component analysis”. Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433—459. arXiv:1108.4372Слободан приступ. doi:10.1002/wics.101. 
  11. ^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-340-80763-6.
  12. ^ Barnett, T. P. & R. Preisendorfer. (1987). „Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis”. Monthly Weather Review. 115 (9): 1825. doi:10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2. 
  13. ^ Hsu, Daniel; Sham M. Kakade; Tong Zhang (2008). „A spectral algorithm for learning hidden markov models.”. Bibcode:2008arXiv0811.4413H. arXiv:0811.4413Слободан приступ. 
  14. ^ Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720. 
  15. ^ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
    Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955. 
  16. ^ Golub and Van Loan, 1983

Literatura

  • Jackson, J.E. (1991). A User's Guide to Principal Components (Wiley).
  • Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag. стр. 487. CiteSeerX 10.1.1.149.8828Слободан приступ. ISBN 978-0-387-95442-4. doi:10.1007/b98835. [мртва веза]
  • Jolliffe, I.T. (2002). Principal Component Analysis, second edition (Springer).
  • Husson François, Lê Sébastien & Pagès Jérôme (2009). Exploratory Multivariate Analysis by Example Using R. Chapman & Hall/CRC The R Series, London. 224p. ISBN 978-2-7535-0938-2
  • Pagès Jérôme (2014). Multiple Factor Analysis by Example Using R. Chapman & Hall/CRC The R Series London 272 p
  • S. Ouyang and Y. Hua, "Bi-iterative least square method for subspace tracking," IEEE Transactions on Signal Processing, pp. 2948-2996, Vol. 53, No. 8, August 2005.
  • Y. Hua and T. Chen, "On convergence of the NIC algorithm for subspace computation," IEEE Transactions on Signal Processing, pp. 1112-1115, Vol. 52, No. 4, April 2004.
  • Y. Hua, “Asymptotical orthonormalization of subspace matrices without square root,” IEEE Signal Processing Magazine, Vol. 21, No. 4, pp. 56-61, July 2004.
  • Y. Hua, M. Nikpour and P. Stoica, "Optimal reduced rank estimation and filtering," IEEE Transactions on Signal Processing, pp. 457-469, Vol. 49, No. 3, March 2001.
  • Y. Hua, Y. Xiang, T. Chen, K. Abed-Meraim and Y. Miao, "A new look at the power method for fast subspace tracking," Digital Signal Processing, Vol. 9. pp. 297-314, 1999.
  • Y. Hua and W. Liu, "Generalized Karhunen-Loeve Transform", IEEE Signal Processing Letters, Vol. 5, No. 6, pp. 141-142, June 1998.
  • Y. Miao and Y. Hua, "Fast subspace tracking and neural network learning by a novel information criterion," IEEE Transactions on Signal Processing, Vol. 46, No. 7, pp. 1967-1979, July 1998.
  • T. Chen, Y. Hua and W. Y. Yan, "Global convergence of Oja's subspace algorithm for principal component extraction," IEEE Transactions on Neural Networks, Vol. 9, No. 1, pp. 58-67, Jan 1998.

Dodatna literatura

Spoljašnje veze

Read other articles:

Jang Sung-kyuLahir21 April 1983 (umur 40)Seoul, Korea SelatanPekerjaanPembawa acara, selebriti penyiaran, radio DJTahun aktif2011–sekarangAgenJTBC Studio - FreelancerSuami/istriLee Yu-mi ​(m. 2014)​Anak2Nama KoreaHangul장성규 Hanja張成圭 Alih AksaraJang Seong-gyuMcCune–ReischauerChang Sŏng-kyu Jang Sung-kyu (Hangul: 장성규; lahir 21 April 1983) adalah pembawa acara dan selebriti Korea Selatan. Ia adalah mantan penyiar untuk JTBC s...

 

Ashgabat Aşgabat, АшхабадAshkhabad Poltoratsk (1919-1927)Berkas:Ashgabat collage.jpg BenderaCitra SatelitNegara TurkmenistanProvinsiProvinsi Ahaldidirikan1818Pemerintahan • Wali kotaAzat BilishovPopulasi (2009) • Total909.000Zona waktuUTC+5 • Musim panas (DST)UTC+5 (tak diketahui)Kode area telepon12Situs webhttp://ashgabat.gov.tm/ Ashgabat (bahasa Turkmen: Aşgabat, Persia: عشق آبادcode: fa is deprecated , Rusia: Ашхабадcode: ...

 

Perpustaan sekolah merupakan hal yang sangat penting untuk menunjang kegiatan pendidikan Perpustakaan sekolah merupakan semua perpustakaan yang ada atau diselenggarakan di sekolah baik itu sekolah dasar, sekolah menengah pertama, sekolah menengah atas sampai sekolah lanjutan seperti perguruan tinggi.[1] Perpustakaan sekolah dapat diartikan sebagai perpustakaan yang berada pada lembaga pendidikan sekolah, yang merupakan bagian integral dari sekolah yang bersangkutan yang merupakan sumb...

Кавказская овчарка Происхождение Место  СССР; Кавказ Рост кобелимин. 68 см сукимин. 64 см Масса кобелимин. 50 кг сукимин. 45 кг Классификация МКФ Группа 2. Пинчеры и шнауцеры, молоссы, горные и швейцарские скотогонные собаки Секция 2. Молоссы Подсекция 2.2. Горные собаки Номер 3...

 

Статьи о герметизмеГерметизмПантеон Гермес Трисмегист Тот Гермес Меркурий Германубис Агатодемон Амон Асклепий Исида Гор Главные книги Герметический корпус Поймандр Асклепий Изумрудная скрижаль Пикатрикс Учения и практики Алхимия Астрология Теургия Мантика Магия Си...

 

P&T Group巴馬丹拿集團巴马丹拿集团Informasi praktikDidirikan1868; 155 tahun lalu (1868)Jumlahkaryawan1.600+LokasiHong KongSingapuraShanghaiDubaiAbu DhabiWuhanBangkokHo Chi Minh CityShenzhenMakauKuala LumpurJakartakarya dan penghargaan signifikanKantorExchange SquareJardine HouseStandard Chartered Bank BuildingProyekLebih dari 5.000 proyek selesaiSitus Webhttps://www.p-t-group.com/ P&T Group (Hanzi: 巴馬丹拿), sebelumnya dikenal dengan nama Palmer and Turner Hon...

Kejadian 27Sebuah halaman dari Kodeks Aleppo, difoto pada tahun 1887 oleh William Wickes, memuat Kejadian 26:35 (החתי) sampai 27:30 (ויהי אך). Menunjukkan adanya pemisah parashah terbuka tunggal {S} pada 27:1 (ויהי כי זקן יצחק) sebagai sub-bagian Parashat ToledotKitabKitab KejadianKategoriTauratBagian Alkitab KristenPerjanjian LamaUrutan dalamKitab Kristen1← pasal 26 pasal 28 → Kejadian 27 (disingkat Kej 27) adalah bagian dari Kitab Kejadian dalam Alkitab Ib...

 

Stadion NissanStadion Internasional YokohamaStadion padaNama lengkapStadion NissanNama lamaStadion Internasional Yokohama (1998–2005)LokasiShin-Yokohama Park 3302-5 Kozukue-cho, Yokohama, Kanagawa Prefecture, JapanTransportasi umumJR Central: Tokaido Shinkansen di Shin-YokohamaJR East:JH Yokohama Line di KozukueYokohama Municipal Subway: Blue Line di Shin-YokohamaPemilikKota YokohamaOperatorAsosiasi Olahraga Yokohama,Yokohama F. MarinosKapasitas72,327[1]Ukuran lapangan107 m x 72 m&#...

 

Historical estate in Cape Town, now a museum For the hospital, see Groote Schuur Hospital. Groote SchuurLocationRondebosch, Cape Town, South Africa.Coordinates33°57′49.61″S 18°27′50.40″E / 33.9637806°S 18.4640000°E / -33.9637806; 18.4640000Built18th centuryArchitectSir Herbert Baker (19th century refurbishment)Architectural style(s)Cape DutchLocation of Groote Schuur in Cape Town A view of Groote Schuur in 1988 Groote Schuur ([ɣroːtə sxyːr], Dut...

Bishop of Oxford, England (1805–1873) The Right ReverendSamuel WilberforceFRSBishop of WinchesterPhotograph by Julia Margaret CameronChurchChurch of EnglandSeeWinchesterIn office1870–1873PredecessorCharles SumnerSuccessorHarold BrowneOrdersOrdination1828Personal detailsBorn7 September 1805Clapham Common, London, EnglandDied19 July 1873 (aged 67)Dorking, Surrey, EnglandPrevious post(s)Bishop of OxfordDean of WestminsterEducationOriel College, Oxford Samuel Wilberforce, FRS (7 September 180...

 

Proposed transit lines in New York City Staten Island light rail proposals refer to two projects in the New York City borough of Staten Island. These proposals are among the several light rail projects that have been floated in New York City in recent years.[1] Neither proposal was funded in the Metropolitan Transportation Authority's 2015–2019 Capital Plan,[2] but $4 million was allocated to a study for it.[3] North Shore The North Shore Light Rail line is a propose...

 

Konstantin TchernenkoКонстанти́н Черне́нко Photographie d'identité sur la carte du parti (1973) Fonctions Secrétaire général du Comité central du Parti communiste de l'Union soviétique 13 février 1984 – 10 mars 1985(1 an et 25 jours) Prédécesseur Iouri Andropov Successeur Mikhaïl Gorbatchev Président du Præsidium du Soviet suprême de l'URSS 11 avril 1984 – 10 mars 1985(10 mois et 27 jours) Prédécesseur Vassili Kouznetsov Successeur V...

Pater Pierre Coudrin, pendiri Kongregasi Hati Kudus Yesus dan Maria. Kongregasi Hati Kudus Yesus dan Maria adalah ordo pastur dan suster Katolik Roma. Pendiri ordo ini adalah Pater Pierre Coudrin yang berasal dari Prancis. Anggota awal Kongregasi Hati Kudus Yesus dan Maria mendirikan sekolah baru untuk orang miskin dan seminari untuk meningkatkan jumlah pastur dari ordo mereka. ss.cc. dalam bahasa Latin adalah Sacrorum Cordium, yang berarti Hati Kudus. Pranala luar Congregation of the Sacred ...

 

Process for shaping conductive metals Electrochemical machining (ECM) diagram.1: Pump 2: Anode (workpiece)3: Cathode (tool)4: Electric current5: Electrolyte6: Electrons7: Metal hydroxide Electrochemical machining (ECM) is a method of removing metal by an electrochemical process. It is normally used for mass production and for working extremely hard materials, or materials that are difficult to machine using conventional methods.[1] Its use is limited to electrically conductive materia...

 

Wind in areas near the Adriatic Sea Hurricane-strength bora in Nin, Croatia The bora is a northerly to north-easterly katabatic wind in areas near the Adriatic Sea. Similar nomenclature is used for north-eastern winds in other littoral areas of eastern Mediterranean and Black Sea basins. Name It is known in Greek as μπόρα (mpóra, pronounced bora) and Italian as bora. In English, the name bora is used.[1][2] The Serbo-Croatian name bura and Slovene burja are not etymologi...

Baseball statistic For meanings outside baseball, see Retail loss prevention. A baserunner (at right) caught stealing In baseball, a runner is charged, and the fielders involved are credited, with a time caught stealing when the runner attempts to advance or lead off from one base to another without the ball being batted and then is tagged out by a fielder while making the attempt. The runner is said to be caught stealing or thrown out. A time caught stealing cannot be charged to a batter-run...

 

Current of Chinese folk religion Part of a series onChinese folk religion Concepts Tian—Shangdi Qi Shen Ling Xian ling Yinyang Hundun Mingyun Yuanfen Baoying Wu Theory Chinese theology Chinese gods and immortals Chinese mythology Chinese creation myth Chinese spiritual world concepts Model humanity: Xian Zhenren Wen and wu Practices Fenxiang Jingxiang Feng shui Miaohui Wu shamanism Jitong mediumship Precious scrolls Institutions and temples Associations of good-doing Lineage associations or...

 

Untuk aktris Agle Janam Mohe Bitiya Hi Kijo, lihat Fatima Sana Shaikh. Sana Amin SheikhSheikh di Penghargaan Golden Petal di 2016Lahir10 Agustus 1989 (umur 34)Mumbai, Maharashtra, IndiaKebangsaanIndianPekerjaanAktris Radio JockeyTahun aktif1995-sekarangSuami/istriAijaz Sheikh ​(m. 2016)​ Sana Amin Sheikh adalah seorang aktris dan joki radio India.[1][2] Ia terkenal karena peran utamanya sebagai Ritu Shah di Disney Channel India Original S...

American actor George AliBornGeorge BolingbrokeOctober 27th, 1866, Washington DCDiedApril 26th 1947 (aged 80-81)Freeport, Long Island, New York, USAOccupation(s)Actor, Animal impersonatorYears active1899-1947SpouseHelen Jerome George Ali (born George Bolingbroke; c.1866−April 26, 1947) was an actor who specialized in the skin game, playing animals in stage and cinema productions, known as an animal impersonator. He performed in a number of stage plays, working as lions, tigers, and bea...

 

Координати: 50°27′27″ пн. ш. 30°31′24″ сх. д. / 50.45750° пн. ш. 30.52333° сх. д. / 50.45750; 30.52333 Київський фунікулер Вагончики Київського фунікулера Відкриття першої ділянки 7 (20) травня 1905 Довжина, км 0,222 Кількість станцій 2 Час проїзду, хв 2,5 Кількість в...