2. DEFINISI (1)
• Analisi statistika yang berguna untuk mereduksi sejumlah p
variabel (𝑋 𝑝) asal menjadi r variabel baru (𝑌𝑟 ) dengan tetap
mempertahankan besarnya keragaman dari variabel asal. 𝑌𝑟
merupakan kombinasi linier dari variabel asal.
𝑌𝑟 ≤ 𝑋 𝑝
r ≤ p
3. DEFINISI (1)
• Analisis komponen utama digunakan sebagai input bagi analisis statistika lainnya :
• Analisis Regresi (jika terjadi multikolinieritas antara variabel independen).
• Analisis gerombol untuk mengelompokkan objek.
• Analisis diskriminan.
• Dalam analisis komponen utama, tidak ada asumsi mengenai sebaran variabel acaknya, tidak ada
hipotesis yang diuji, dan tidak ada model yang mendasarinya. (Note : apabila analisis lanjutannya
memerlukan asumsi mengenai variabelnya, maka harus diuji apakah komponen utama yang terpilih
memenuhi asumsi tersebut).
• Skala pada variabel asal (𝑋1, 𝑋2, ..., 𝑋 𝑝) adalah metrik.
4. CATATAN
• AKU tidak selalu berhasil mereduksi banyaknya peubah asal menjadi beberapa peubah baru yang dapat
menjelaskan dengan baik keragaman data asal.
• Bila tidak ada korelasi antara peubah asal, AKU tidak akan memberikan hasil yang diinginkan, karena
peubah baru yang diperoleh hanyalah peubah asal yang ditata berdasarkan besar keragamannya.
• Makin erat korelasi (baik positif maupun negatif) antar peubah, makin baik pula hasil yang diperoleh
dari AKU.
5. Variabel baru (𝑌𝑟) disebut dengan komponen utama yang mempunyai ciri :
1. 𝑌1, 𝑌2, … , 𝑌𝑟 adalah kombinasi linier dari peubah asal
𝑌1 =𝑎11 𝑋1 + 𝑎12 𝑋2 + … + 𝑎1𝑝 𝑋 𝑝 = 𝑎1
′
X
⋮
𝑌𝑟 =𝑎 𝑟1 𝑋1 + 𝑎 𝑟2 𝑋2 + … + 𝑎 𝑟𝑝 𝑋 𝑝 = 𝑎 𝑟
′ X
𝑌 =
𝑌1
…
𝑌𝑟
, 𝐴′ =
𝑎11 … 𝑎1𝑝
… … …
𝑎 𝑟1 … 𝑎 𝑟𝑝
, 𝑋 =
𝑋1
…
𝑋 𝑝
Y = A’X
CIRI KOMPONEN UTAMA (1)
6. CIRI KOMPONEN UTAMA (2)
2. 𝑌1, 𝑌2, ... , 𝑌𝑟 tidak saling berkorelasi / antar komponen utama saling orthogonal.
Corr (𝑌𝑖, 𝑌𝑗) = Cov (𝑌𝑖, 𝑌𝑗) = Cov (𝑎𝑖
′
X, 𝑎𝑗
′
X) = 0
3. 𝑌1, 𝑌2, ... , 𝑌𝑟 terurut dari komponen utama yang mempunyai ragam terbesar sampai terkecil (ragam terbesar
mempunyai informasi yang paling banyak).
Var(Y1) ≥ Var(Y2) ≥ … ≥ Var(Yr) ≥ 0 ; Var(𝑌𝑖) = λ𝑖
Sehingga : λ1 ≥ λ2 ≥ … ≥ λ 𝑟
4. Diharapkan sejumlah k komponen utama yang terpilih (dengan k sekecil mungkin) sudah mampu menjelaskan
sebagian besar keragaman data.
7. PENAMAAN KOMPONEN UTAMA
• Komponen utama yang terbentuk harus diberi nama berdasarkan kontribusi variabel asal yang paling
besar.
• Kontribusi variabel asal didasarkan pada nilai vektor aj, karena nilai ini berhubungan linear dengan
korelasi antara X dengan Komponen Utama.
• Informasi pada KU didominasi oleh informasi X yang memiliki koefisien(aj) besar .
• Semakin besar aj, semakin besar kontribusinya.
• Namun jika vektor aj pada suatu komponen utama memiliki nilai yang sama, maka penamaan harus
memuat informasi gabungan mengenai semua X.
Contoh :
X1= umur, X2= pendidikan, X3= jenis kelamin
Y1 = 0.893X1+0.654X2+0.234X3
Maka penamaan Y1 sesuai dengan nama X1 (karena memiliki koefisien terbesar), Y1= umur.
Y2 = 0.24X1+0.24X2+0.24X3
Maka penamaan Y2 sesuai dengan gabungan ketiga variabel diatas, Y2 = karakteristik sosio demografi.
8. KERAGAMAN TOTAL
Y = A’X
Var (Y) = Var (A’X) = A’ Var(X) A = A’𝛴A
Dimana : Var(Y) =
λ1 0 … 0
0 λ2 … 0
⋮
0
⋮
0
⋱ ⋮
… λ 𝑟
Total keragaman Y = |Var(Y)|= trace (𝑉𝑎𝑟(𝑌)) = 𝑖=0
𝑟
λ𝑖
Trace (𝑉𝑎𝑟(𝑌)) = trace (A’𝛴A) = trace (A’A𝛴) = trace (𝛴) = Total keragaman X
Sehingga :
Total keragaman X = Total keragaman Y
𝑖=0
𝑝
𝑉𝑎𝑟(𝑋𝑖) = 𝑖=0
𝑟
𝑉𝑎𝑟(𝑌𝑖)
𝜎11 + 𝜎22 + ⋯ + 𝜎 𝑝𝑝 = λ2 + λ2 + … + λ 𝑟
Nilai total varians Y merupakan informasi dari seluruh variabel asal yang dapat dijelaskan oleh komponen-
komponen utamanya
9. KORELASI KOMPONEN UTAMA DENGAN PEUBAH ASAL
Peubah Asal : 𝑋1, 𝑋1, … , 𝑋 𝑝
Komponen Utama : 𝑌1, 𝑌2, ... , 𝑌𝑟
Dimana : 𝑌1= 𝑎1
′
X = 𝑒1
′
X , ..., 𝑌𝑟 = 𝑒 𝑟
′
X
Korelasi : 𝜌 𝑌 𝑖, 𝑋 𝑘
=
𝑒 𝑖𝑘 λ 𝑖
𝜎 𝑘𝑘
; i, k = 1,2, … , p
10. CATATAN
1. Dugaan KU
• Σ diduga dari S, sehingga yang didapat dalam analisis adalah λ1, λ2, ..., λ 𝑟 dan 𝑎1, 𝑎2, ... , 𝑎 𝑟
• Tidak ada asumsi tentang X, sehingga sifat dari penduga tidak dapat diturunkan
• AKU dipandang sebagai suatu teksik statistika yang tidak didasarkan pada suatu model apapun, shg KU yang
diperoleh tetap dipandang sebagai KU, bukan hanya sekedar dugaan.
2. Akar karakteristik 0
• Terjadi jika terdapat keterkaitan linier antara peubah (jarang terjadi)
• KU yang dihasilkan tidak digunakan (karena hanya diambil k komponen utama)
3. Akar karakteristik kecil
• Terjadi jika terdapat korelasi yang kurang erat antar peubah.
• KU nya dapat diabaikan
11. UJI BARTLETT
Untuk melihat apakah Analisis Komponen Utama dapat dilakukan :
• 𝐻0: 𝜌 = 𝐿 𝑝
• 𝐻1: 𝜌 ≠ 𝐿 𝑝
• 𝛼 = 5%
• Statistik Uji : 𝜒2
= − 𝑛 − 1 −
1
6
2𝑝 + 5 ln | 𝑝|
• Wilayah kritis : Tolak 𝐻0 jika : 𝜒2
> 𝜒2
𝛼,
1
2𝑝(𝑝−1)
• Keputusan
• Kesimpulan : jika matriks korelasi bukan merupakan identitas maka penyusutan dimensi terhadap peubah
ganda tersebut bermakna untuk dilakukan analisis dengan Komponen Utama.
12. LANGKAH
PEMBENTUKAN
KOMPONEN UTAMA
𝑋1,𝑋2,..., 𝑋 𝑝
Ukuran sama
Cari matriks varians-covarians (Σ)
Cari nilai eigen dan vektor
eigen dari Σ
Tentukan k
Hitung skor komponen
Ukuran berbeda
Standarisasi Xi,...,Xp
Cari matriks korelasi (𝜌) dari Xi yang
terstandarisasi (Zi)
Cari nilai eigen dan vektor
eigen dari 𝜌
Tentukan k
Hitung skor komponen
𝑌𝑖 =𝑎𝑖1 𝑋1 + 𝑎𝑖2 𝑋2 + … + 𝑎𝑖𝑝 𝑋 𝑝 = 𝑎𝑖
′
X
𝑎𝑖 𝑎𝑑𝑎𝑙𝑎ℎ 𝑣𝑒𝑘𝑡𝑜𝑟 𝑒𝑖𝑔𝑒𝑛 𝑦𝑎𝑛𝑔 𝑏𝑒𝑟𝑠𝑒𝑠𝑢𝑎𝑖𝑎𝑛
𝑑𝑒𝑛𝑔𝑎𝑛 𝜆 𝑖
(𝑍𝑖𝑗 =
𝑋 𝑖𝑗 − 𝑋 𝑗
𝑆 𝑗
)
13. PENENTUAN BANYAKNYA K
• Metode 1 :
Kumulatif proporsi keragaman total yang mampu dijelaskan komponen utama.
• Cari proporsi λ𝑖 dari masing-masing komponen utama :
Jika menggunakan Σ : λ𝑖/ 𝑖=1
𝑟
λ𝑖
Jika menggunakan 𝜌 : λ𝑖/p
• Tentukan batas minimum keragaman yang mampu dijelaskan. Pada dasarnya tidak ada patokan
mengenai batas tersebut, namun batas yang sering digunakan adalah 70% atau 80%.
• Jika komponen utama yang pertama belum dapat mencapai 80%, maka cari nilai kumulatif sampai
komponen utama ke-k yang mempunyai nilai minimum 80%.
14. PENENTUAN BANYAKNYA K
• Metode 2 (hanya dapat diterapkan pada matriks korelasi) :
• Akar ciri (λ𝑖) ≥ 0.7
• Jika λ𝑖< 0.7 , maka komponen utama tersebut tidak digunakan.
15. PENENTUAN BANYAKNYA K
• Metode 3 :
Menggunakan plot scree.
• Sumbu x = 1,2, ..., r (Sebanyak komponen utama)
• Sumbu y = λ1,, λ2 ... , λ 𝑟
• Cara menentukan banyaknya k : titik dimana sebelah kiri mempunyai garis yang curam dan kanannya
mempunyai garis landai (komponen utama yang dipilih sedemikian rupa sehingga selisih antara akar ciri yang
berurutan sudah tidak besar lagi).
16. SOFTWARE UNTUK ANALISIS KOMPONEN UTAMA
Software yang bisa digunakan yaitu :
• R
• SPSS
• Minitab
• SAS
• ...
18. Variabel bebas :
• X1 = Usia
• X2 = Berat badan (kg)
• X3 = Kadar Glukosa (mg/dl)
• X4 = Kadar Kolesterol Total (mg/dl)
• X5 = Kadar Kolesterol HDL (mg/dl)
• X6 = Kadar Kolesterol LDL (mg/dl)
• X7 = Kadar Trigliserida (mg/dl)
Variabel Terikat : Y = Jumlah Tekanan Darah Tinggi (mmHg)
Karena satuan variabel X tidak sama, maka akan digunakan matriks korelasi >> Xi harus distandarisasi.
19. UJI ASUMSI NONMULTIKOLINEARITAS
Pada analisis regresi, harus terpenuhi asumsi nonmultikolinearitas (tidak ada hubungan antarvariabel
bebas), sehingga perlu diuji asumsi ini.
Terjadi multikolinearitas jika VIF>5.
Misalnya terjadi multikolinearitas, maka variabel X perlu ditransformasi. Salah satunya dengan
menggunakan analisis komponen utama.