Artikel tentang sifat statistik analisis regresi linier tertimbang
1. Artikel ini adalah tentang sifat statistik analisis regresi linier tertimbang. Untuk analisis
regresi yang lebih umum, lihat analisis regresi . Untuk regresi linier pada variabel tunggal,
lihat regresi linier sederhana . Untuk perhitungan dari cocok kuadrat terkecil kurva, lihat
metode numerik untuk kuadrat terkecil linier .
Okun hukum di makroekonomi menyatakan bahwa dalam suatu perekonomian pertumbuhan
PDB harus bergantung linear pada perubahan dalam tingkat pengangguran. Di sini paling
tidak biasa kuadrat metode yang digunakan untuk membangun garis regresi
menggambarkan hukum ini.
Dalam statistik , kuadrat terkecil biasa (OLS) atau kuadrat terkecil linier adalah metode
untuk memperkirakan parameter yang tidak diketahui dalam model regresi linier . Metode ini
meminimalkan jumlah kuadrat jarak vertikal antara respon yang diamati dalam dataset dan
tanggapan diprediksi oleh pendekatan linier. Yang dihasilkan estimator dapat dinyatakan
dengan rumus sederhana, terutama dalam kasus regressor tunggal di sisi kanan.
Estimator OLS adalah konsisten ketika regressor yang eksogen dan tidak ada yang sempurna
multikolinearitas , dan optimal dalam kelas estimator linier objektif ketika kesalahan yang
homoscedastic dan serial berkorelasi . Dengan kondisi tersebut, metode OLS menyediakan
minimum-variance rata-objektif estimasi ketika kesalahan memiliki varians yang terbatas. Di
bawah asumsi tambahan bahwa kesalahan akan terdistribusi normal , OLS adalah estimator
maksimum likelihood . OLS digunakan dalam ilmu ekonomi ( ekonometri ) dan teknik listrik
( teori kontrol dan pemrosesan sinyal ), di antara banyak bidang aplikasi.
Artikel utama: model regresi linier
Misalkan data terdiri dari n pengamatan {y
i, x
i} n
i = 1. [ klarifikasi diperlukan ] pengamatan Masing-masing respon skalar y i dan vektor prediktor (atau
regressor) x i. Dalam model regresi linier variabel respon adalah fungsi linear dari regressor:
di mana β adalah p × 1 [ klarifikasi diperlukan ] vektor parameter yang tidak diketahui, ε i 's adalah
variabel skalar unobserved acak ( kesalahan ) yang menjelaskan perbedaan antara respon
benar-benar diamati y i dan "hasil diprediksi" x 'i β , dan 'menandakan matriks transpos ,
sehingga x 'β adalah dot product antara vektor x dan β. Model ini juga dapat ditulis dalam
notasi matriks sebagai
2. di mana y dan ε adalah n × 1 vektor, dan X adalah n × p matriks regressor, yang juga kadang-
kadang disebut matriks desain .
Sebagai aturan, istilah konstan selalu disertakan dalam set regressor X, katakanlah, dengan
mengambil x i 1 = 1 untuk semua i, = 1 ..., n. The β koefisien 1 sesuai dengan regressor ini
disebut mencegat.
Mungkin ada beberapa hubungan antara regressor. Misalnya, regressor ketiga mungkin
kuadrat dari regressor kedua. Dalam kasus ini (dengan asumsi bahwa regressor pertama
adalah konstan) kita memiliki model kuadrat di regressor kedua. Tapi ini masih dianggap
sebagai model linier karena linier dalam s β.
Asumsi
Ada kerangka kerja yang berbeda di mana model regresi linier dapat dilemparkan untuk
membuat teknik OLS berlaku. Masing-masing pengaturan menghasilkan rumus yang sama
dan hasil yang sama, satu-satunya perbedaan adalah interpretasi dan asumsi yang harus
dikenakan agar metode untuk memberikan hasil yang berarti. Pemilihan kerangka berlaku
sebagian besar tergantung pada sifat data di tangan, dan pada tugas inferensi yang harus
dilakukan.
Salah satu baris perbedaan penafsiran adalah apakah untuk mengobati regressor sebagai
variabel acak, atau sebagai konstanta yang telah ditetapkan. Dalam kasus pertama
('rancangan acak) x regressor saya adalah acak dan sampel bersama-sama dengan y i s dari
beberapa populasi , seperti dalam sebuah studi observasional . Pendekatan ini memungkinkan
untuk studi lebih alami dari sifat asimtotik dari estimator. Dalam penafsiran lain (desain
tetap), X regressor diperlakukan sebagai konstanta dikenal ditetapkan oleh desain , dan y
adalah sampel bersyarat pada nilai-nilai X seperti dalam sebuah eksperimen . Untuk tujuan
praktis, perbedaan ini sering penting, karena estimasi dan inferensi dilakukan sementara
pengkondisian pada X. Semua hasil dinyatakan dalam artikel ini adalah dalam kerangka
desain acak.
model regresi linier Klasik
Model klasik berfokus pada estimasi "terbatas sampel" dan inferensi, yang berarti bahwa
jumlah pengamatan n tetap. Ini kontras dengan pendekatan lain, yang mempelajari perilaku
asimtotik dari OLS, dan di mana jumlah pengamatan yang dibiarkan tumbuh hingga tak
terbatas.
Benar spesifikasi. Bentuk fungsional linear benar ditentukan.
Ketat exogeneity. Kesalahan dalam regresi harus memiliki rata-rata bersyarat nol: [1]
Konsekuensi langsung dari asumsi exogeneity adalah bahwa kesalahan telah berarti
nol: E [ε] = 0, dan bahwa regressor tidak berkorelasi dengan kesalahan: E [X'ε] = 0.
Asumsi exogeneity sangat penting bagi teori OLS. Jika memegang maka variabel
regressor disebut eksogen. Jika tidak, maka mereka regressor yang berkorelasi dengan
3. error term disebut endogen, [2] dan kemudian memperkirakan OLS menjadi tidak
valid. Dalam kasus seperti ini, metode variabel instrumental dapat digunakan untuk
melakukan inferensi.
Tidak ada ketergantungan linier. Para regressor di X semua harus linear independen
. Secara matematis itu berarti bahwa X matriks harus memiliki penuh rank kolom
hampir pasti: [3]
Biasanya, hal ini juga diasumsikan bahwa regressor memiliki saat-saat yang terbatas
hingga setidaknya kedua. Dalam kasus seperti matriks Q xx = E [X'X / n] akan terbatas
dan positif semi-pasti.
Bila asumsi ini melanggar regressor disebut linear atau sempurna multicollinear .
Dalam kasus seperti ini, nilai β koefisien regresi tidak dapat dipelajari, meskipun
prediksi nilai y masih mungkin untuk nilai-nilai baru dari regressor yang terletak pada
subruang linear yang sama.
Bulat kesalahan: [3]
di mana saya n adalah n × n matriks identitas , dan σ 2 adalah parameter yang
menentukan varians dari setiap pengamatan. Ini σ 2 dianggap sebagai parameter
gangguan dalam model, meskipun biasanya juga diperkirakan. Jika asumsi ini
dilanggar maka perkiraan OLS masih berlaku, tetapi tidak lagi efisien.
Ini adalah kebiasaan untuk membagi asumsi ini menjadi dua bagian:
o Homoscedasticity : E [ε i
2 | X] = σ 2, yang berarti bahwa istilah kesalahan
memiliki varians yang sama σ 2 di setiap pengamatan. Bila persyaratan ini
dilanggar ini disebut heteroskedastisitas , dalam kasus seperti estimator yang
lebih efisien akan kuadrat terkecil berbobot . Jika kesalahan memiliki varians
terbatas maka perkiraan OLS juga akan memiliki varian yang tak terbatas
(meskipun pada hukum bilangan besar mereka tetap akan cenderung ke arah
nilai-nilai yang benar asalkan kesalahan memiliki mean nol). Dalam hal ini,
estimasi robust teknik yang dianjurkan.
o Nonautocorrelation: kesalahan yang berkorelasi antara pengamatan: E [ε i ε j
| X] = 0 untuk i ≠ j. Asumsi ini mungkin dilanggar dalam konteks time series
data, data panel , sampel cluster, data hirarkis, diulang langkah data, data
longitudinal, dan data lainnya dengan dependensi. Dalam kasus seperti kuadrat
terkecil umum menyediakan alternatif yang lebih baik daripada OLS.
Normalitas. Kadang-kadang tambahan diasumsikan bahwa kesalahan memiliki
distribusi normal tergantung pada regressor: [4]
Asumsi ini tidak diperlukan untuk validitas dari metode OLS, meskipun beberapa
tambahan hingga sampel-sifat dapat dibentuk dalam kasus ketika itu terjadi (terutama
di bidang pengujian hipotesis). Juga ketika kesalahan normal, estimator OLS adalah
4. setara dengan MLE , dan oleh karena itu asimtotik efisien dalam kelas dari semua
estimator biasa .
Independen dan terdistribusi secara identik
Dalam beberapa aplikasi, terutama dengan data cross-sectional , dengan asumsi tambahan
dikenakan - bahwa semua pengamatan yang independen dan terdistribusi secara identik (iid).
Ini berarti bahwa semua observasi yang diambil dari sampel acak yang membuat semua
asumsi yang terdaftar sebelumnya lebih sederhana dan lebih mudah diinterpretasikan. Juga
kerangka ini memungkinkan seseorang untuk menyatakan hasil asimtotik (sebagai ukuran
sampel n → ∞), yang dipahami sebagai kemungkinan teoritis mengambil pengamatan
independen baru dari data yang menghasilkan proses . Daftar asumsi dalam hal ini adalah:
pengamatan iid: (x i, y i) adalah independen dari, dan memiliki sama distribusi
dengan, (x j, y j) untuk semua i ≠ j;
tidak ada multikolinieritas yang sempurna: Q xx = E [x i x 'i] adalah matriks positif
yang pasti ;
exogeneity: E [ε i | x i] = 0;
homoscedasticity: Var [ε i | x i] = σ 2.
Waktu model seri
The Proses stokastik {x i, y i} adalah stasioner dan ergodic ;
Para regressor yang telah ditentukan: E [x i ε i] = 0 untuk semua i, = 1 ..., n;
P × p matriks Q xx = E [x i x 'i] adalah peringkat penuh, dan karenanya positif yang
pasti ;
{X i ε i} adalah urutan perbedaan martingale , dengan matriks terbatas saat kedua Q xxε ²
= E [ε i
2 x i x 'i].
Estimasi
Misalkan b adalah "kandidat" nilai untuk parameter β. Kuantitas y i - x i b 'disebut residual
untuk pengamatan ke-i, mengukur jarak vertikal antara titik data (x i, y i) dan hyperplane y =
x'b, dan dengan demikian menilai derajat dari kesesuaian antara data aktual dan model.
Jumlah residual kuadrat (RSK) (juga disebut jumlah kesalahan kuadrat (ESS) atau
jumlah residual kuadrat (RSS)) [5] adalah ukuran dari model fit secara keseluruhan:
Nilai b yang meminimalkan jumlah ini disebut estimator OLS untuk β. Fungsi S (b) adalah
kuadrat dalam b dengan positif pasti Hessian , dan karena itu fungsi ini memiliki minimal
global yang unik, yang dapat diberikan oleh rumus eksplisit: [6] [bukti]
5. Setelah kami telah memperkirakan β, nilai-nilai pas (atau nilai-nilai diprediksi) dari regresi
akan
di mana P = X (X'X) -1 X 'adalah matriks proyeksi ke ruang yang direntang oleh kolom-kolom
X. Ini matriks P juga kadang-kadang disebut matriks topi karena "menempatkan topi" ke
variabel y. Matriks lain, terkait erat dengan P adalah anihilator matriks M = I n - P, ini adalah
matriks proyeksi ke ruang ortogonal X. Kedua matriks P dan M yang simetris dan idempoten
(artinya P 2 = P), dan berhubungan dengan data matriks X melalui identitas PX = X dan MX =
0. [7] Matrix M menciptakan residual dari regresi:
Menggunakan residu kita dapat memperkirakan nilai σ 2:
Penyebut, np, adalah derajat kebebasan statistik . Jumlah pertama, s 2, adalah estimasi OLS
untuk σ 2, sedangkan yang kedua, , Adalah estimasi MLE untuk σ 2. Kedua estimator sangat
mirip dalam sampel yang besar, yang pertama selalu objektif , sedangkan yang kedua bias
tetapi meminimalkan kesalahan kuadrat rata-rata dari estimator. Dalam prakteknya 2 s lebih
sering digunakan, karena lebih nyaman untuk pengujian hipotesis. Akar kuadrat dari 2 s
disebut standard error dari regresi (SER), atau standard error dari persamaan (SEE). [7]
Hal ini umum untuk menilai kebaikan-of-fit dari regresi OLS dengan membandingkan berapa
banyak variasi awal dalam sampel dapat dikurangi dengan kemunduran ke X. The koefisien
determinasi R 2 didefinisikan sebagai rasio varians "jelas" untuk varians "total" dari y
variabel dependen: [8]
mana TSS adalah jumlah total kuadrat untuk variabel dependen, L = I n - 11 '/ n, dan 1
adalah n × 1 vektor yang. (L adalah "centering matrix" yang setara dengan regresi pada
konstan,. Itu hanya mengurangi rata-rata dari variabel a) Agar R 2 menjadi berarti, X matriks
data regressor harus mengandung vektor kolom yang untuk mewakili konstanta yang
koefisien adalah mencegat regresi. Dalam hal ini, R 2 akan selalu menjadi nomor antara 0 dan
1, dengan nilai mendekati 1 menunjukkan tingkat yang baik dari fit.
model regresi Sederhana
Artikel utama: regresi linier sederhana
Jika data matriks X hanya berisi dua variabel: sebuah konstanta, dan regressor skalar x i, maka
ini disebut "model regresi sederhana". [9] Kasus ini sering dianggap di kelas statistik pemula,
karena menyediakan lebih sederhana bahkan cocok untuk perhitungan manual formula.
6. Vektor parameter dalam model tersebut adalah 2-dimensi, dan umumnya dilambangkan
sebagai (α, β):
Para kuadrat terkecil memperkirakan dalam hal ini diberikan oleh rumus sederhana
derivasi Alternatif
Pada bagian sebelumnya kuadrat terkecil estimator diperoleh sebagai nilai yang
meminimalkan jumlah kuadrat residual dari model. Namun hal ini juga memungkinkan untuk
memperoleh estimator yang sama dari pendekatan-pendekatan lain. Dalam semua kasus
rumus untuk OLS estimator tetap sama: ^ β = (X'X) -1 X'y, satu-satunya perbedaan adalah
bagaimana kita menginterpretasikan hasil ini.
Pendekatan Geometri
OLS estimasi dapat dilihat sebagai proyeksi ke ruang linear direntang oleh regressor.
Artikel utama: Linear kuadrat terkecil (matematika)
Untuk matematikawan, OLS adalah solusi perkiraan untuk sebuah sistem overdetermined
persamaan linear Xβ ≈ y, di mana β adalah tidak diketahui. Dengan asumsi sistem tidak dapat
diselesaikan tepat (jumlah n persamaan jauh lebih besar daripada jumlah yang tidak diketahui
p), kita mencari solusi yang bisa memberikan perbedaan terkecil antara sisi kanan dan kiri.
Dengan kata lain, kita sedang mencari solusi yang memenuhi
di mana | | · | | adalah standar norma L 2 di n-dimensi ruang Euclidean R n. The Xβ kuantitas
diprediksi hanya kombinasi linear tertentu dari vektor regressor. Dengan demikian, y vektor
sisa - Xβ akan memiliki panjang terkecil saat y diproyeksikan secara ortogonal ke subruang
linear membentang oleh kolom-kolom X. Estimator OLS dalam hal ini dapat diartikan
sebagai koefisien dekomposisi vektor dari ^ y = Py sepanjang dasar X.
7. kemungkinan maksimum
Estimator OLS identik dengan estimator maksimum likelihood bawah asumsi normalitas
untuk istilah kesalahan. [10] [bukti] ini asumsi normalitas memiliki kepentingan sejarah, karena
memberi dasar untuk pekerjaan awal analisis regresi linier oleh Yule dan Pearson . [ rujukan?]
Dari sifat-sifat MLE, kita dapat menyimpulkan bahwa estimator OLS adalah asimtotik efisien
(dalam arti mencapai Cramér-Rao terikat untuk varians) jika asumsi normalitas terpenuhi. [11]
Generalized metode momen
Dalam iid kasus estimator OLS juga dapat dilihat sebagai GMM estimator yang timbul dari
kondisi saat
Kondisi saat menyatakan bahwa regressor harus berkorelasi dengan kesalahan. Karena x i
adalah p-vektor, jumlah kondisi saat tidak sama dengan dimensi dari vektor parameter β, dan
dengan demikian sistem ini persis diidentifikasi. Ini adalah kasus yang disebut GMM klasik,
ketika estimator tidak tergantung pada pilihan dari matriks pembobotan.
Perhatikan bahwa asumsi exogeneity asli yang ketat E [ε i | x i] = 0 berarti satu set jauh lebih
kaya dari kondisi saat itu daripada dinyatakan di atas. Secara khusus, asumsi ini berarti
bahwa untuk setiap ƒ vektor-fungsi, kondisi saat E [ƒ (x i) · ε i] = 0 akan terus. Namun dapat
ditunjukkan dengan menggunakan teorema Gauss-Markov bahwa pilihan optimal ƒ berfungsi
untuk mengambil ƒ (x) = x, yang menghasilkan persamaan saat diposting di atas.
Hingga sifat sampel
Pertama-tama, dengan asumsi exogeneity ketat OLS estimator dan s 2 adalah objektif , yang
berarti bahwa nilai-nilai mereka diharapkan bertepatan dengan nilai sebenarnya dari
parameter: [12] [bukti]
Jika exogeneity ketat tidak berlaku (seperti halnya dengan banyak time series model, di mana
exogeneity diasumsikan hanya sehubungan dengan guncangan masa lalu, tetapi bukan yang
akan datang), maka estimator akan menjadi bias dalam sampel terbatas.
The matriks varians-kovarians dari sama dengan [13]
Secara khusus, standard error setiap koefisien sama dengan akar kuadrat dari elemen-j
diagonal dari matriks ini. Perkiraan ini standard error diperoleh dengan mengganti kuantitas
yang tidak diketahui σ 2 dengan 2 estimasi s. Dengan demikian,
8. Hal ini juga dapat dengan mudah menunjukkan bahwa estimator yang berkorelasi dengan
residual dari model: [13]
The Gauss-Markov Teorema menyatakan bahwa di bawah asumsi kesalahan bola (yaitu,
kesalahan harus berkorelasi dan homoscedastic ) estimator efisien dalam kelas estimator
linier objektif. Ini disebut estimator terbaik objektif linear (BIRU). Efisiensi harus
dipahami sebagai jika kita menemukan beberapa estimator lainnya yang akan linear y dan
tidak bias, kemudian [13]
dalam arti bahwa ini adalah matriks non-negatif yang pasti . Teorema ini menetapkan optimal
hanya dalam kelas penduga objektif linier, yang cukup ketat. Tergantung pada distribusi ε
kesalahan istilah, lainnya, non-linear penduga dapat memberikan hasil yang lebih baik
dibandingkan OLS.
normalitas asumsi
Properti yang terdaftar sejauh ini semua terlepas valid distribusi yang mendasari istilah
kesalahan. Namun jika Anda bersedia untuk berasumsi bahwa asumsi normalitas memegang
(yaitu, bahwa ε ~ N (0, σ 2 I n)), maka sifat tambahan dari estimator OLS dapat dinyatakan.
Estimator terdistribusi normal, dengan mean dan varians seperti yang diberikan
sebelumnya: [14]
Estimator ini mencapai Cramér-Rao terikat untuk model, dan dengan demikian optimal dalam
kelas dari semua estimator objektif. [11] Perhatikan bahwa tidak seperti teorema Gauss-
Markov , hasil ini menetapkan optimalitas antara estimator baik linier dan non-linier, namun
hanya dalam kasus istilah error terdistribusi secara normal.
2 estimator s akan sebanding dengan distribusi chi-kuadrat : [15]
Varians estimator ini adalah sama dengan 2 σ 4 / (n - p), yang tidak mencapai Cramér-Rao
terikat dari 2 σ 4 / n. Namun itu menunjukkan bahwa tidak ada estimator objektif σ 2 dengan
varians yang lebih kecil dibandingkan dengan estimator s 2. [16] Jika kita bersedia untuk
memungkinkan penduga bias, dan mempertimbangkan kelas estimator yang sebanding
dengan jumlah kuadrat residu (SSR) dari model, maka yang terbaik (dalam arti dari kesalahan
kuadrat rata-rata estimator) di kelas ini akan ~ σ 2 = SSR / (n - p + 2), yang bahkan
mengalahkan Cramér-Rao terikat dalam kasus ketika hanya ada satu regressor (p = 1). [17]
9. Selain itu, estimator dan s 2 adalah independen , [18] fakta yang datang di berguna ketika
membangun t-dan F-tes untuk regresi.
pengamatan Berpengaruh
Seperti telah disebutkan sebelumnya, estimator linear y, yang berarti bahwa itu merupakan
kombinasi linear dari variabel dependen y i 's. Bobot dalam kombinasi linear adalah fungsi
dari X regressor, dan umumnya tidak sama. Pengamatan dengan bobot tinggi disebut
berpengaruh karena mereka memiliki efek yang lebih diucapkan pada nilai estimator.
Untuk menganalisis mana pengamatan yang berpengaruh kita menghapus pengamatan ke-j
tertentu dan mempertimbangkan berapa banyak perkiraan jumlah yang akan mengubah (mirip
dengan metode pisau lipat ). Hal ini dapat menunjukkan bahwa perubahan dalam estimator
OLS untuk β akan sama dengan [19]
di mana h j = x j '(X'X) -1 x j adalah elemen-j diagonal topi matriks P, dan x j adalah vektor dari
regressor sesuai dengan pengamatan ke-j. Demikian pula, perubahan dalam nilai prediksi
untuk j-th pengamatan yang dihasilkan dari pengamatan yang menghilangkan dari dataset
akan sama dengan [19]
Dari sifat-sifat matriks topi, 0 ≤ h j ≤ 1, dan mereka jumlah sampai dengan p, sehingga rata-
rata h j ≈ p / n. Jumlah ini h j disebut memanfaatkan ', dan pengamatan dengan tinggi h j s
-. Poin memanfaatkan [20] Biasanya pengamatan dengan leverage yang tinggi harus diteliti
lebih seksama, dalam kasus mereka keliru, atau outlier, atau dalam beberapa lainnya cara
yang khas dari sisa dataset.
regresi partisi
Kadang-kadang variabel dan parameter yang sesuai dalam regresi dapat secara logis dibagi
menjadi dua kelompok, sehingga regresi mengambil bentuk
di mana X 1 dan X 2 memiliki dimensi n × p 1, n × p 2, dan β 1, β 2 adalah p 1 × 1 dan p 2 × 1
vektor, dengan p 1 + p 2 = p.
The Frisch-Waugh-Lovell Teorema menyatakan bahwa dalam regresi ini residu dan OLS
memperkirakan akan numerik identik dengan residu dan estimasi OLS untuk β 2 dalam
regresi berikut: [21]
10. di mana M 1 adalah matriks anihilator untuk regressor X 1.
Teorema ini dapat digunakan untuk membangun sejumlah hasil teoritis. Misalnya, memiliki
regresi dengan konstan dan regressor lain adalah setara dengan mengurangkan berarti dari
variabel dependen dan regressor dan kemudian menjalankan regresi untuk variabel
direndahkan tapi tanpa istilah konstan.
estimasi Dibatasi
Misalkan diketahui bahwa koefisien dalam regresi memenuhi sistem persamaan linear
di mana Q adalah p × q matriks rank penuh, dan c adalah q × 1 vektor konstanta diketahui, di
mana q <p. Dalam hal ini kuadrat estimasi setara dengan meminimalkan jumlah residual
kuadrat dari subjek model kendala H 0. Para kuadrat terkecil terbatas (CLS) estimator
dapat diberikan oleh rumus eksplisit: [22]
Ini ekspresi untuk estimator dibatasi berlaku selama X'X matriks dibalik. Diasumsikan dari
awal artikel ini bahwa matriks ini adalah peringkat penuh, dan itu dicatat bahwa ketika
kondisi rank gagal, β tidak akan diidentifikasi. Namun hal itu mungkin terjadi bahwa
menambahkan pembatasan H 0 membuat diidentifikasi β, dalam hal ini kita ingin mencari
rumus untuk estimator. Estimator sama dengan [23]
di mana R adalah p × (p-q) matriks sedemikian rupa sehingga matriks [QR] adalah non-
singular, dan R'Q = 0. Seperti matriks selalu dapat ditemukan, meskipun secara umum tidak
unik. Rumus kedua bertepatan dengan pertama dalam kasus ketika X'X dibalik. [23]
sifat sampel Besar
Para estimator kuadrat terkecil adalah titik perkiraan dari model regresi linier β parameter.
Namun umumnya kita juga ingin tahu seberapa dekat estimasi mungkin ke nilai sebenarnya
dari parameter. Dengan kata lain, kita ingin membangun perkiraan Interval .
Karena kita belum membuat asumsi tentang distribusi jangka error ε i, adalah mustahil untuk
menyimpulkan distribusi dari estimator dan . Namun demikian, kita dapat menerapkan
hukum bilangan besar dan teorema limit sentral untuk menurunkan sifat asimtotik mereka
sebagai ukuran sampel n pergi hingga tak terbatas. Sekarang tentu saja dalam ukuran praktik
sampel tidak pergi ke mana pun, namun itu adalah adat untuk berpura-pura bahwa n adalah
"cukup besar" sehingga distribusi sejati estimator OLS dekat dengan batas asimtotik, dan
mantan dapat sekitar digantikan oleh yang terakhir.
11. Kita dapat menunjukkan bahwa di bawah asumsi model, estimator kuadrat terkecil untuk β
adalah konsisten (yaitu konvergen dalam probabilitas untuk β) dan asimtotik normal: [bukti]
dimana
Menggunakan distribusi asimtotik, perkiraan interval keyakinan dua sisi untuk komponen-j
dari vektor dapat dibangun sebagai
pada 1 - tingkat kepercayaan α,
di mana q menunjukkan fungsi kuantil dari distribusi normal standar, dan [·] jj adalah elemen-
j diagonal matriks.
Demikian pula, estimator kuadrat terkecil untuk σ 2 juga konsisten dan asimtotik normal
(asalkan momen keempat ε i ada) dengan membatasi distribusi
Distro ini asimtotik dapat digunakan untuk prediksi, pengujian hipotesis, membangun
penduga lainnya, dll. Sebagai contoh perhatikan masalah prediksi. Mengira adalah
beberapa titik dalam domain distribusi regressor, dan seseorang ingin mengetahui apa
variabel respon akan berada di titik itu. The respon rata-rata adalah kuantitas ,
Sedangkan respon diprediksi adalah . Jelas respon diprediksi adalah variabel
acak, distribusi dapat diturunkan dari yang :
yang memungkinkan membangun interval kepercayaan untuk respon rata-rata yang akan
dibangun:
pada 1 - tingkat kepercayaan α.
pengujian hipotesis
Bagian ini kosong Anda dapat membantu dengan. menambahkan untuk itu . (Juli 2010)
Contoh dengan data riil
12. Scatterplot dari data, hubungan ini sedikit melengkung tapi dekat dengan linear.
Kumpulan data berikut memberikan ketinggian rata dan berat untuk perempuan Amerika
yang berusia 30-39 (Sumber: The World Almanac dan Book of Facts, 1975).
Ting
gi
(m):
1.47 1.50 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.70 1.73 1.75 1.78 1.80 1.83
Bera
t
(kg):
52.2
1
53.1
2
54.4
8
55.8
4
57.2
0
58.5
7
59.9
3
61.2
9
63.1
1
64.4
7
66.2
8
68.1
0
69.9
2
72.1
9
74.4
6
Ketika hanya satu variabel dependen sedang dimodelkan, sebuah sebar akan menyarankan
bentuk dan kekuatan hubungan antara variabel dependen dan regressor. Hal ini juga akan
mengungkapkan outlier, heteroskedastisitas, dan aspek lain dari data yang dapat mempersulit
interpretasi dari model regresi dipasang. Sebar ini menunjukkan bahwa hubungan yang kuat
dan dapat diperkirakan sebagai fungsi kuadrat. OLS dapat menangani non-linear hubungan
dengan memperkenalkan 2 TINGGI regressor. Model regresi kemudian menjadi model linier
berganda:
Output dari paling populer paket statistik akan terlihat seperti ini:
Dilengkapi regresi
Metode: Kuadrat
Variabel dependen: BERAT
13. Termasuk pengamatan: 15
Variabel Koefisien Std.Error t-statistik p-value
const 128.8128 16.3083 7.8986 0.0000
TINGGI -143.1620 19.8332 -7.2183 0.0000
TINGGI 2 61.9603 6.0084 10.3122 0.0000
R 2 0.9989 SE regresi 0.2516
Adjusted R 2 0.9987 Model sum-of-sq 692.61
Log-kemungkinan 1.0890 Residual sum-of-sq 0.7595
Durbin–Watson stats. 2.1013 Total sum-of-sq 693.37
Akaike criterion 0.2548 F-statistic 5471.2
Schwarz criterion 0.3964 p-value (F-stat) 0.0000
In this table:
The Coefficient column gives the least squares estimates of parameters β j
The Std. errors column shows standard errors of each coefficient estimate:
The t-statistic and p-value columns are testing whether any of the coefficients might
be equal to zero. The t -statistic is calculated simply as . If the errors ε
approximately follow a normal distribution, t follows a Student-t distribution. Under
weaker conditions, t is asymptotically normal. Large values of t indicate that the null
hypothesis can be rejected and that the corresponding coefficient is not zero. The
second column, p -value , expresses the results of the hypothesis test as a significance
level . Conventionally, p -values smaller than 0.05 are taken as evidence that the
population coefficient is nonzero.
R-squared is the coefficient of determination indicating goodness-of-fit of the
regression. This statistic will be equal to one if fit is perfect, and to zero when
regressors X have no explanatory power whatsoever. This is a biased estimate of the
population R-squared , and will never decrease if additional regressors are added,
even if they are irrelevant.
Adjusted R-squared is a slightly modified version of , designed to penalize for the
excess number of regressors which do not add to the explanatory power of the
regression. This statistic is always smaller than , can decrease as you add new
regressors, and even be negative for poorly fitting models:
Log-likelihood is calculated under the assumption that errors follow normal
distribution. Even though the assumption is not very reasonable, this statistic may still
find its use in conducting LR tests.
14. Durbin–Watson statistic tests whether there is any evidence of serial correlation
between the residuals. As a rule of thumb, the value smaller than 2 will be an
evidence of positive correlation.
Akaike information criterion and Schwarz criterion are both used for model selection.
Generally when comparing two alternative models, smaller values of one of these
criteria will indicate a better model. [ 24 ]
Standard error of regression is an estimate of σ , standard error of the error term.
Total sum of squares , model sum of squared , and residual sum of squares tell us how
much of the initial variation in the sample were explained by the regression.
F-statistic tries to test the hypothesis that all coefficients (except the intercept) are
equal to zero. This statistic has F ( p–1 , n–p ) distribution under the null hypothesis
and normality assumption, and its p-value indicates probability that the hypothesis is
indeed true. Note that when errors are not normal this statistic becomes invalid, and
other tests such as for example Wald test or LR test should be used.
Residuals plot
Ordinary least squares analysis often includes the use of diagnostic plots designed to detect
departures of the data from the assumed form of the model. These are some of the common
diagnostic plots:
Residuals against the explanatory variables in the model. A non-linear relation
between these variables suggests that the linearity of the conditional mean function
may not hold. Different levels of variability in the residuals for different levels of the
explanatory variables suggests possible heteroscedasticity.
Residuals against explanatory variables not in the model. Any relation of the residuals
to these variables would suggest considering these variables for inclusion in the
model.
Residuals against the fitted values, .
Residuals against the preceding residual. This plot may identify serial correlations in
the residuals.
An important consideration when carrying out statistical inference using regression models is
how the data were sampled. In this example, the data are averages rather than measurements
on individual women. The fit of the model is very good, but this does not imply that the
weight of an individual woman can be predicted with high accuracy based only on her height.
Beware
15. This example also demonstrates that coefficients determined by these calculations are
sensitive to how the data is prepared. The heights were originally given rounded to the
nearest inch and have been converted and rounded to the nearest centimetre. Since the
conversion factor is one inch to 2.54cm this is not an exact conversion. The original inches
can be recovered by Round(x/0.0254) and then re-converted to metric without rounding. If
this is done the results become:
const height Height 2
128.8128 -143.162 61.96033 converted to metric with rounding.
119.0205 -131.5076 58.5046 converted to metric without rounding.
Using either of these equations to predict the weight of a 5' 6" (1.6764m) woman gives
similar values: 62.94kg with rounding vs. 62.98kg without rounding. Thus a seemingly small
variation in the data has a real effect on the coefficients but a small effect on the results of the
equation.
Lihat pula