Analisi delle componenti principali

Esempio di PCA. I vettori indicati sono gli autovettori della matrice di covarianza.

L'analisi delle componenti principali (in inglese principal component analysis o abbreviata PCA), anche nota come trasformata di Karhunen-Loève[1], è una tecnica per la semplificazione dei dati di riduzione della dimensionalità lineare utilizzata nell'ambito della statistica multivariata.[2] Questo metodo fu proposto per la prima volta nel 1901 da Karl Pearson e sviluppato poi da Harold Hotelling nel 1933, e fa parte dell'analisi fattoriale. La tecnica ha lo scopo principale di ridurre il numero più o meno elevato di variabili che descrivono un insieme di dati a un numero minore di variabili latenti, limitando il più possibile la perdita di informazioni.[2]

Risoluzione lineare

La risoluzione lineare avviene tramite una trasformazione lineare delle variabili che proietta quelle originarie in un nuovo sistema cartesiano in cui la nuova variabile con la maggiore varianza viene proiettata sul primo asse, la variabile nuova, seconda per dimensione della varianza, sul secondo asse e così via.

La riduzione della complessità avviene limitandosi ad analizzare le principali, per varianza, tra le nuove variabili.

Diversamente da altre trasformazioni lineari di variabili praticate nell'ambito della statistica, in questa tecnica sono gli stessi dati che determinano i vettori di trasformazione.

Assumendo che a ciascuna delle variabili originarie venga sottratta la loro media e pertanto la nuova variabile abbia media nulla,

dove arg max indica l'insieme degli argomenti in cui è raggiunto il massimo. Con le prime componenti, la -esima componente può essere trovata sottraendo le prime componenti principali a :

e sostituendo questo

Risoluzione matriciale

Un metodo più semplice per calcolare la componente utilizza la matrice delle covarianze di . La stessa operazione può essere eseguita partendo dalla matrice dei coefficienti di correlazione anziché dalla matrice delle covarianze.[3]

Innanzitutto si devono trovare gli autovalori della matrice di covarianza o della matrice dei coefficienti di correlazione. Si ottengono tanti autovalori quante sono le variabili . Se viene utilizzata la matrice di correlazione, l'autovalore relativo alla prima componente principale, ossia quella con varianza massima, sarà pari a . In ogni caso l'autovalore con il maggiore valore corrisponde alla dimensione che ha la maggiore varianza: esso sarà dunque la varianza della componente principale 1. In ordine decrescente, il secondo autovalore sarà la varianza della componente principale 2, e così via per gli n autovalori. Per ciascun autovalore viene calcolato il corrispondente autovettore, ossia la matrice (riga vettore) dei coefficienti che moltiplicano le vecchie variabili nella combinazione lineare per l'ottenimento delle nuove variabili . Questi coefficienti sono anche definiti loading. La matrice degli autovettori, ossia la matrice che ha per riga ciascun autovettore prima calcolato, è la cosiddetta matrice di rotazione . Eseguendo l'operazione matriciale , dove è il vettore colonna avente come elementi le nuove variabili e è il vettore colonna avente come elementi le "vecchie variabili" , si possono trovare le coordinate di ciascun punto nel nuovo spazio vettoriale. Utilizzando le coordinate per ciascun punto relative alle componenti principali si costruisce il grafico denominato score plot. Se le componenti principali sono 3 si avrà un grafico tridimensionale, se sono 2 sarà bidimensionale, se invece si è scelta una sola componente principale lo score plot sarà allora monodimensionale. Mediante lo score plot è possibile verificare quali dati sono simili tra di loro e quindi si può ad esempio dedurre quali campioni presentano la medesima composizione.

In PCA esiste anche un altro tipo di grafico, definito loading plot, in cui sono le variabili ad essere riportate nel nuovo sistema avente per assi le componenti principali. Con questo tipo di grafico è possibile osservare se due variabili sono simili, e pertanto forniscono lo stesso tipo di informazione, oppure se sono distanti (e quindi non sono simili).

Quindi gli elementi dell'autovettore colonna corrispondente a un autovalore esprimono il legame tra le variabili di partenza e la componente considerata attraverso dei pesi. Il numero di variabili latenti da considerare come componenti principali si fonda sulla grandezza relativa di un autovalore rispetto agli altri. Invece nel caso in cui sia l'operatore a scegliere le componenti principali senza considerare la relativa varianza espressa dai rispettivi autovalori, si ha un supervised pattern recognition.

Si può costruire la matrice dei fattori, in pratica una matrice modale, che elenca per riga le variabili originarie e per colonna le variabili latenti: ogni valore, compreso tra 0 e 1, dice quanto le seconde incidano sulle prime.

Invece la matrice del punteggio fattoriale ha la stessa struttura della precedente, ma dice quanto le singole variabili originarie abbiano pesato sulla determinazione della grandezza di quelle latenti.

Esempio

Si supponga di disporre di un'indagine che riporta per 10 soggetti: voto medio (da 0 a 33), intelligenza (da 0 a 10), media ore studiate in un giorno e zona d'origine, che varia da 1 a 3. Si standardizzino i valori con la formula:

dove è la media aritmetica di e è la deviazione standard.

La matrice dei coefficienti di correlazione è:

Zscore (Voto medio) Zscore (Intelligenza) Zscore (Provenienza) Zscore (Media ore di studio)
Zscore (Voto medio) 1,000 0,600 -0,838 0,788
Zscore (Intelligenza) 0,600 1,000 -0,222 0,022
Zscore (Provenienza) -0,838 -0,222 1,000 -0,918
Zscore (Media ore di studio) 0,788 0,022 -0,918 1,000

La diagonale principale è composta da valori uguali a perché è il coefficiente di correlazione di una variabile con sé stessa. La matrice è simmetrica perché il coefficiente di correlazione tra la variabile e la variabile è uguale a quello tra e . Si vede come ci sia un forte legame tra voto, media ore studio e provenienza.

Dall'analisi degli autovalori si possono trarre conclusioni:

Componente Autovalori iniziali Extraction sums of squared loadings
Totale Varianza % % Cumulative Totale Varianza % % Cumulative
1 2,828 70,708 70,708 2,828 70,708 70,708
2 1,070 26,755 97,463 1,070 26,755 97,496
3 0,084 2,088 99,551
4 0,018 0,449 100,000

Gli autovalori sono in ordine decrescente e il loro rapporto con la somma degli autovalori dà la percentuale di varianza che rappresentano. Sono stati selezionati arbitrariamente solo quelli che hanno valore maggiore di in quanto più significativi, che spiegano il 70,708% e il 26,755% rispettivamente.

Si osservi la matrice delle componenti principali:

Componente
1 2
Zscore (Voto medio) 0,966 0,204
Zscore (Intelligenza) 0,442 0,894
Zscore (Provenienza) -0,947 0,228
Zscore (Media ore di studio) 0,897 -0,420

Il fattore 1 pesa fortemente sul voto medio e, in maniera negativa, sulla variabile della zona di origine.

Si calcoli quindi la matrice di punteggio fattoriale:

Componente
1 2
Zscore (Voto medio) 0,341 0,191
Zscore (Intelligenza) 0,156 0,836
Zscore (Provenienza) -0,335 0,213
Zscore (Media ore di studio) 0,317 -0,392

Come si vede la variabile provenienza continua ad avere un influsso di segno negativo sull'autovalore principale. Le altre variabili invece hanno peso positivo.

Note

  1. ^ viene chiamata anche trasformata di Hotelling oppure decomposizione ortogonale propria
  2. ^ a b (EN) Stéphane Tufféry, Factor analysis, in Data mining and statistics for decision making, Wiley, 2011, pp. 175-180, ISBN 978-0-470-68829-8.
  3. ^ Paola Pozzolo, Analisi delle componenti principali: da dove partire, su Paola Pozzolo, 5 dicembre 2020. URL consultato il 28 luglio 2024.

Bibliografia

  • Sergio Bolasco, Analisi multidimensionale dei dati. Metodi, strategie e criteri d'interpretazione, 6ª ed., Roma, Carocci, 2014 [1999], ISBN 88-430-1401-3.
  • Roberto Todeschini, Introduzione alla chemiometria, 1ª ed., Napoli, EdiSES, 2003, ISBN 88-7959-146-0.
  • (EN) Stéphane Tufféry, Data mining and statistics for decision making, Wiley, 2011, ISBN 978-0-470-68829-8.

Voci correlate

Altri progetti

Controllo di autoritàThesaurus BNCF 52507 · LCCN (ENsh85106729 · GND (DE4129174-8 · BNF (FRcb11942895w (data) · J9U (ENHE987007536366205171

Read other articles:

Peta Kabupaten Muna Barat di Sulawesi Tenggara Berikut adalah daftar kecamatan dan kelurahan di Kabupaten Muna Barat, Provinsi Sulawesi Tenggara, Indonesia. Kabupaten Muna Barat terdiri dari 11 kecamatan, 5 kelurahan dan 81 desa dengan luas wilayah 1.022,89 km² dan jumlah penduduk sebesar 78.630 jiwa (2017) dengan sebaran penduduk 77 jiwa/km².[1][2] Daftar kecamatan dan kelurahan di Kabupaten Muna Barat, adalah sebagai berikut: Kode Kemendagri Kecamatan Jumlah Kelurahan Juml...

 

 

Uffenheim Lambang kebesaranLetak Uffenheim NegaraJermanNegara bagianBayernWilayahMittelfrankenKreisNeustadt an der Aisch-Bad WindsheimMunicipal assoc.Uffenheim Subdivisions8 ortsteilPemerintahan • MayorGeorg Schöck (FWG)Luas • Total59,47 km2 (2,296 sq mi)Ketinggian329 m (1,079 ft)Populasi (2013-12-31)[1] • Total6.195 • Kepadatan1,0/km2 (2,7/sq mi)Zona waktuWET/WMPET (UTC+1/+2)Kode pos97215Kode area tel...

 

 

Humpy flyArtificial flyHumpy flyTypeDry flyImitatesMayflies, Stoneflies, Caddisflies, terrestrialsHistoryCreatorJack HornerCreated1940sMaterialsTypical sizes8-18 standard dry flyTypical hooksTMC 100, Firehole 419Thread6/0, 8/0TailDeer, elk, moose hairBodyDeer, elk, moose hair over flossWingDeer, elk, foam, calf tailHackleDry fly hackleUsesPrimary useTrout The Humpy fly is a popular and effective dry fly used by fly anglers for trout in fast-water conditions. In The Professionals’ Favorite F...

Eurovision Song Contest 2019Country HungaryNational selectionSelection processA Dal 2019Selection date(s)Heats:19 January 201926 January 20192 February 2019Semi-finals:9 February 201916 February 2019Final:23 February 2019Selected entrantJoci PápaiSelected songAz én apámSelected songwriter(s)József PápaiFerenc MolnárFinals performanceSemi-final resultFailed to qualify (12th)Hungary in the Eurovision Song Contest ◄2018 • 2019 Hungary participated in...

 

 

GeometriProyeksi sebuah lingkaran pada sebuah bidang Garis besarSejarah Cabang Euklides takEuklides Elips Bola Hiperbola Geometri non-Archimedes Projektif Afin Sintetis Analitis Aljabar Aritmetika Diophantus Diferensial Riemann Simplektik Diferensial diskret Kompleks Tentu Diskrit Digital Cembung Komputasi Fraktal Insidens KonsepTampilanDimensi Melukis dengan penggaris dan jangka busur Sudut Kurva Diagonal Ortogonalitas (tegak lurus) Sejajar Titik pojok Kekongruenan Keserupaan Simetri Dimensi...

 

 

1972 music festival in Manatí, Puerto Rico This article may require cleanup to meet Wikipedia's quality standards. The specific problem is: substantial portions of this article are written more like personal observations or opinions and lack objective verification and source-citation; the article contains certain information that seems extraneous to a focused understanding of the subject; and there are numerous structural and grammatical weaknesses in the writing. Please help improve this ar...

В статье не хватает ссылок на источники (см. рекомендации по поиску). Информация должна быть проверяема, иначе она может быть удалена. Вы можете отредактировать статью, добавив ссылки на авторитетные источники в виде сносок. (14 июля 2015) Как говорит Джинджерангл. As Told By Ging...

 

 

Questa voce sull'argomento personaggi cinematografici è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. MorpheusMorpheus interpretato da Laurence Fishburne in una scena di Matrix (1999) SagaMatrix AutoreFratelli Wachowski 1ª app. inMatrix (1999) Ultima app. inMatrix Resurrections (2021) Interpretato daLaurence Fishburne (Matrix, Matrix Reloaded, Matrix Revolutions) Yahya Abdul-Mateen II (Matrix Resurrections) Voci italianeMassimo Corvo (Matrix, Mat...

 

 

American spy This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (March 2011) (Learn how and when to remove this message) William Weisband, Sr.Born(1908-08-28)August 28, 1908Odessa[1]or Odessa, Russian Empire (now Ukraine)DiedMay 14, 1967(1967-05-14) (aged 58)VirginiaChildren5; 4 daughters and 1 son William Weisband, Sr. (August 28, 1908 – May 14, 1...

Cet article est une ébauche concernant un réalisateur britannique. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les conventions filmographiques. Pour plus d’informations, voyez le projet Cinéma. Pour les articles homonymes, voir Connor. Kevin ConnorBiographieNaissance 24 septembre 1937 (86 ans)LondresNationalité britanniqueActivités Réalisateur, scénariste, monteur, réalisateur de télévision, réalisateurmodifier - modifier le code - modif...

 

 

AitakattaSingel oleh AKB48dari album Set List: Greatest Songs 2006–2007Sisi-BDakedo...Dirilis25 Oktober 2006 (2006-10-25)FormatCD SingelGenrePopDurasi17:00LabelDefSTAR RecordsPenciptaYasushi Akimoto, BOUNCEBACK, Michihiko ŌtaProduserYasushi Akimoto Aitakatta (会いたかったcode: ja is deprecated , (Aku) ingin bertemu (denganmu)) adalah singel label mayor pertama dari grup idola Jepang AKB48. Singel ini dirilis oleh DefSTAR Records pada 25 Oktober 2006.[1] Lagu ini telah me...

 

 

  بوريسلاف (بالأوكرانية: Борислав)‏    بوريسلاف بوريسلاف تاريخ التأسيس 1387  تقسيم إداري البلد أوكرانيا (1991–)  [1] خصائص جغرافية إحداثيات 49°17′17″N 23°25′36″E / 49.288055555556°N 23.426666666667°E / 49.288055555556; 23.426666666667   المساحة 37.0 كيلومتر مربع[2]  الارتفاع 359 �...

一中同表,是台灣处理海峡两岸关系问题的一种主張,認為中华人民共和国與中華民國皆是“整個中國”的一部份,二者因為兩岸現狀,在各自领域有完整的管辖权,互不隶属,同时主張,二者合作便可以搁置对“整个中國”的主权的争议,共同承認雙方皆是中國的一部份,在此基礎上走向終極統一。最早是在2004年由台灣大學政治学教授張亞中所提出,希望兩岸由一中各表�...

 

 

  هذه المقالة عن قرية يحمور في حلب. لأسماء مشابهة، طالع يحمور (توضيح). يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (ديسمبر 2018) يحمور الاسم الرسمي يحمور الإحد�...

 

 

Kepala Staf Teritorial Tentara Nasional Indonesia merupakan sebuah jabatan di lingkungan Angkatan Bersenjata Republik Indonesia atau Tentara Nasional Indonesia yang bertugas sebagai ketua dari unsur fraksi ABRI atau TNI/POLRI di MPR. Jabatan ini dibentuk pada tahun 1969 dan dibubarkan pada tahun 2001 dan beberapa kali mengalami perubahan nama dari Kepala Staf Kekaryaan (Kasker), Kepala Staf Sosial Politik (Kasospol) hingga yang terakhir Kepala Staf Teritorial (Kaster) seiring dengan reformasi...

رامي صبري معلومات شخصية اسم الولادة رامي صبري محمود محمد  الميلاد 15 مارس 1978 (46 سنة)  القاهرة  مواطنة مصر  الحياة الفنية النوع موسيقى عربية،  وموسيقى مصرية  الآلات الموسيقية صوت بشري  شركة الإنتاج روتانا،  ومزيكا  المهنة مغني،  وملحن،  وممثل  ال...

 

 

Human settlement in EnglandThe StreetThe Street, Lawshall during a winter snow-stormThe StreetLocation within SuffolkDistrictBaberghShire countySuffolkRegionEastCountryEnglandSovereign stateUnited KingdomPost townBury St EdmundsPostcode districtIP29 List of places UK England Suffolk 52°09′17″N 0°43′40″E / 52.1548°N 0.7279°E / 52.1548; 0.7279 The Street is a linear settlement in the civil parish of Lawshall in the Babergh district in the coun...

 

 

Gemäldegalerie der Akademie del bildenden KünsteAccademia di Vienna UbicazioneStato Austria LocalitàVienna IndirizzoSchillerplatz 3 Coordinate48°12′05.86″N 16°21′54.85″E48°12′05.86″N, 16°21′54.85″E CaratteristicheTipoArte, pinacoteca Istituzione1822 Apertura1872 Sito web Modifica dati su Wikidata · Manuale La Gemäldegalerie der Akademie der bildenden Künste (traduzione letterale: Pinacoteca dell'Accademia di belle arti) è un museo di Vienna. Indice 1 Stori...

Ben CaseyTitolo originaleBen Casey PaeseStati Uniti d'America Anno1961-1966 Formatoserie TV Generedrammatico, medico Stagioni5 Episodi153 Durata60 min Lingua originaleinglese Dati tecniciB/N1,33 : 1 CreditiIdeatoreJames E. Moser Interpreti e personaggi Vince Edwards: Ben Casey Sam Jaffe: David Zorba MusicheDavid Raksin, Richard Markowitz, Walter Scharf ProduttoreJames Moser, Matthew Rapf, Wilton Schiller, Fred Freiberger, John Meredyth Lucas Produttore esecutivoJames E. Moser, Wilton...

 

 

Ruined keep in East Lothian, Scotland Not to be confused with Preston Tower, Northumberland. Preston Tower Preston Tower is a ruined L-plan keep in the ancient Scottish village of Prestonpans.[1] It is situated within a few metres of two other historic houses, Hamilton House and Northfield House.[2] History The original structure, some of which may date from the 14th century, has four storeys.[3] A further two storeys were added above the parapet in 1626,[4] wi...