Dalam statistika, analisis komponen utama (disingkat AKU; bahasa Inggris: principal component analysis/PCA) adalah teknik yang digunakan untuk menyederhanakan suatu data, dengan cara mentransformasi data secara linier sehingga terbentuk sistem koordinat baru dengan varians maksimum.[1] Analisis komponen utama dapat digunakan untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan.[2] Analisis komponen utama juga sering digunakan untuk menghindari masalah multikolinearitas antar peubah bebas dalam model regresi berganda.[3][4]
Analisis komponen utama merupakan analisis antara dari suatu proses penelitian yang besar atau suatu awalan dari analisis berikutnya, bukan merupakan suatu analisis yang langsung berakhir.[butuh rujukan] Misalnya komponen utama bisa merupakan masukan untuk regresi berganda atau analisis faktor atau analisis gerombol.
AKU juga dikenal dengan Transformasi Karhunen-Loève (dinamakan untuk menghormati Kari Karhunen dan Michel Loève) atau Transformasi Hotelling (dinamakan untuk menghormati Harold Hotelling).[5][6]
Analisis komponen utama juga merupakan salah satu teknik statistika multivariat yang dapat menemukan karakteristik data yang tersembunyi.[2] Dalam penerapannya, Analisis komponen utama, justru dibatasi oleh asumsi-asumsinya,[7] yaitu asumsi kelinearan model regresi, asumsi keorthogonalan komponen utama, dan asumsi varians yang besar memiliki struktur yang penting.[7]
Secara keseluruhan, metode Analisis komponen utama tampaknya hanya mempunyai penerapan yang sempit dalam ilmu-ilmu fisis, kerekayasaan, dan biologis.[5] Kadang-kadang, dalam ilmu-ilmu pengetahuan sosial, metode analisis komponen utama bermanfaat untuk mencari peubah kombinasi yang efektif.[5]
Sejarah
PCA adalah teknik statistik yang sudah digunakan secara luas baik dalam hal pengolahan data, pembelajaran mesin, maupun pengolahan citra atau pemrosesan signal. Metode Principal Component Analysis (PCA) dibuat pertama kali oleh para ahli statistik dan ditemukan oleh Karl Pearson pada tahun 1901 yang memakainya pada bidang biologi. Pada
tahun 1947 teori ini ditemukan kembali oleh Karhunen, dan kemudian dikembangkan oleh Loeve pada tahun l963, sehingga teori ini juga
dinamakan Karhunen-Loeve transform pada bidang ilmu telekomunikasi.
Teknik PCA
PCA adalah sebuah transformasi linier yang biasa digunakan pada kompresi data. PCA juga merupakan teknik yang umum digunakan untuk menarik fitur-fitur dari data pada sebuah skala berdimensi tinggi. PCA memproyeksikan data ke dalam subspace. PCA adalah transformasi linear untuk menentukan sistem koordinat yang baru dari data. Teknik PCA dapat mengurangi dimensi dari data tanpa menghilangkan informasi penting dari data tersebut.
Dimensionality Reduction
Salah satu masalah yang sering terjadi dalam suatu machine learning adalah “Curse of Dimensionality problem”, di mana mesin kesulitan dalam menangani sejumlah masukan data dengan dimesi yang sangat tinggi. Salah satu cara yang paling umum digunakan untuk menangani proses ini adalah dengan mengurangi dimensi dari data
masukan dengan tetap menjaga informasi yang terkandung didalamnya. Salah satu
cara yang paling sering digunakan adalah PCA (Principal Component Analysis), karena PCA dapat mereduksi dimensi seminimal mungkin dengan tetap mempertahankan informasi yang terkandung di dalamnya.
Contoh proses Dimensionality Reduction dari suatu data secara sederhana
Terdapat sekumpulan data dengan penyebaran sebagai berikut (untuk kasus 2 dimesi):
1. Untuk proyeksi terhadap sumbu X, didapat sebaran data antara
-2.8 sampai +2.7
2. Untuk proyeksi terhadap sumbu Y, didapat sebaran data antara
-9.6 sampai +9.5
Dapat dilihat bahwa varians yang dihasilkan proyeksi data terhadap sumbu Y lebih besar daripada proyeksi tehadap sumbu X, maka apabila kita ingin mereduksi data tersebut menjadi 1 dimensi saja maka proyeksi sumbu Y yang akan digunakan sebagai principal component data tersebut. Untuk data dengan dimensi lebih banyak, kita dapat menyimpan lebih dari 1 principal componet (urutan principal component yang dipilih untuk membentuk dimensi yang diinginkan berdasarkan banyaknya varians yang dihasilkan oleh principal component tersebut), hal ini dilakukan agar varians yang hasilkan lebih banyak() sehingga informasi yang dihasilkan dapat lebih terjaga(sesuai).
Hal yang perlu diperhatikan juga adalah sumbu dari setiap principal component harus
saling tegak lurus satu sama lain (Orthogonal Vectors).
Principal Components dapat ditemukan dengan cara melakukan Eigenvalue Decomposition dari Covariance Matrix (atau correlation matrix) dari suatu data atau menggunakan metode Singular Value Decomposition (SVD).
Contoh Menentukan Mencari Principal Component dari Suatu Data
1. Transformasi Mean-Centering
Proses memindahkan semua
data kebagian tengah, guna mendapatkan data yang lebih stabil.
Berikut langkah-langkah mean-centering:
A. Cari mean data
B. Pindahkan setiap posisi data kebagian tengah, dengan cara
mengurangi nilai setiap data dengan nilai mean data
Berikut contoh proses mean-centering pada suatu data:
2. Menghitung Covariance-Matrix
Covariance-Matrix berisi seluruh pasangan covariance dari semua himpunan varians data yang ada. Secara umum, berikut bentuk matrixnya:
3. Mencari Eigenvalue dan Eigenvector dari Covariance-Matrix (Principal Component) Eigenvector dari suatu matriks A (berukuran n x n) adalah suatu vektor v, yang jika dikalikan dengan matriks A menghasilkan kelipatan dari vektor v tersebut. Nilai kelipatan tersebut merupakan Eigenvalue.
4. Urutkan principal components tersebut secara menurun
5. Transformasi Data ke Sumbu Principal Components
Untuk mentransformasi data ke sumbu principal components yang ada, cukup mengalikan data tersebut dengan invers dari principal components yang telah didapat sebelumnya.
^ abJohnson, Richard A & Wichern, Dean W. Applied Multivariate Statistical Analysis (New Jersey: Prentice-Hall International Inc, 1998). ISBN 0-13-080084-8.
^Juanda, Bambang. Ekonometrika: Pemodelan dan Pendugaan (Bogor: IPB Press, 2009). ISBN 978-979-493-177-6.
^Iriawan, Nur, Astuti, Septin Puji. Mengolah Data Statistik dengan mudah menggunakan Minitab 14 (Yogyakarta: ANDI, 2006). ISBN 979-763-111-7.
^ abcDraper, Norman & Smith, Harry. Analisis Regresi Terapan (Jakarta: PT Gramedia Pustaka Utama, 1992). ISBN 979-511-146-9.