2. 2
2
การวิเคราะห์ความถดถอย (Regression Analysis)
Regression Analysis คือ การวิเคราะห์ความสัมพันธ์ของตัวแปร
หรือเรียกว่า การวิเคราะห์ความถดถอย
สามารถแบ่งออกเป็น 2 ประเภท โดยพิจารณาจากจานวนตัวแปรที่มีผลต่อผลตอบสนอง
1. การถดถอยอย่างง่าย (มีตัวแปรอิสระเพียงตัวแปรเดียว)
2. การทดถอยเชิงพหุ (มีตัวแปรอิสระมากกว่า 1 ตัวแปร)
bx
a
x
f
y +
=
= )
(
k
k x
b
x
b
x
b
b
x
f
y +
+
+
+
=
= ...
)
( 2
2
1
1
0
4. 4
4
ดังนั้น จึงเป็นเหตุเป็นผลในการสมมุติให้ค่าเฉลี่ยของผลตอบสนอง (Y) มีความสัมพันธ์กับตัวแปร (x) ในเชิงเส้นตรง ด้วยตัว
ประมาณค่าตัวแบบความสัมพันธ์คือ
ค่าความชันและจุดตัดแกนของฟังก์ชั่นเชิงเส้นตรงดังกล่าว เรียกว่า สัมประสิทธิ์ความถดถอย(Regression Coefficients)
จุดตัดระนาบแกน Y
สัมประสิทธิ์ความชัน/ ผลตอบสนองเฉลี่ยต่อการเปลี่ยนแปลงตัวแปร x
การประมาณค่าอาจพบว่า ณ ค่าระดับตัวแปรใดๆ ค่าผลตอบสนองไม่จาเป็นต้องเกิดค่าเดียวกับค่าตัวแบบความสัมพันธ์
(ผลตอบสนองได้จากการประมาณค่าของค่าเฉลี่ยเท่านั้น) ดังนั้นตัวแบบความสัมพันธ์อาจนาเสนอได้ในรูปแบบดังนี้
ตัวแบบการถดถอยเชิงเส้นเชิงเดี่ยว (Simple Linear Regression Model)
ความผิดพลาดที่เกิดขึ้นอย่างสุ่ม
การวิเคราะห์ความถดถอย (Regression Analysis)
x
x
Y
E x
Y 1
0
|
)
|
(
+
=
=
:
:
1
0
+
+
= x
Y 1
0 :
ดังนั้น หากสมมุติให้ค่าคาดหวังหรือค่าเฉลี่ยของความผิดพลาดมีค่าเป็น 0 และมีค่าความแปรปรวนเท่ากับ จะได้ว่า
คือเส้นตรงของค่าเฉลี่ยผลตอบสนอง ณ ระดับใดๆ ของตัวแปร x นั่นเอง
x
x
Y 1
0
|
+
=
2
5. 5
5
การวิเคราะห์ความถดถอย (Regression Analysis)
1
0
ˆ
,
ˆ
1
0 ,
=
=
−
−
=
=
n
i
i
i
i
n
i
i x
y
L
L
1
2
0
1
2
)
(
,
ในการหาค่า ที่เหมาะสมที่สุด ควรเป็นค่าที่ทาให้ผลต่างกาลัง 2 ระหว่าง ผลตอบสนองที่เกิดขึ้นจริง กับค่าประมาณ
ของตัวแบบความสัมพันธ์มีค่าน้อยที่สุด ซึ่งวิธีนี้เรียกว่า วิธีกาลัง 2 น้อยที่สุด (Method of Least Squares)
จากกราฟ พบว่า ผลรวมกาลัง 2 ของผลต่างฯ สามารถเขียนโดยใช้ L โดยที่
ดังนั้นตัวประมาณค่าสัมประสิทธิ์ความสัมพันธ์ของตัวแบบ เป็นดังนี้
0
)
ˆ
ˆ
(
2
0
)
ˆ
ˆ
(
2
1
0
ˆ
,
ˆ
1
1
0
ˆ
,
ˆ
0
1
0
1
0
=
−
−
−
=
=
−
−
−
=
=
=
i
n
i
i
i
i
n
i
i
i
i
x
x
y
L
x
y
L
6. 6
6
การวิเคราะห์ความถดถอย (Regression Analysis)
จากสมการอนุพันธ์ย่อย ของสมการกาลัง 2 น้อยที่สุด จะแปลงเป็นสมการปกติได้ดังนี้
= =
=
= =
+
=
+
=
n
i
n
i
i
i
n
i
i
i
i
n
i
n
i
i
i
i x
x
y
x
x
n
y
1 1
2
1
0
1 1
0
ˆ
ˆ
,
ˆ
ˆ
จาก 2 สมการข้างต้น สามารถใช้คานวณหาค่าประมาณของ ได้ดังนี้
ค่าประมาณสัมประสิทธิ์จุดตัด (Intercept) →
โดยที่
ค่าประมาณสัมประสิทธิ์ความชัน (Slope) →
1
0
ˆ
,
ˆ
x
y 1
0
ˆ
ˆ
−
=
n
x
x
n
y
x
y
x i
i
2
2
1
)
(
ˆ
−
−
=
=
=
=
=
n
i
i
n
i
i x
n
x
y
n
y
1
1
1
,
1
ตัวแบบความสัมพันธ์เชิงเส้นเชิงเดี่ยว จากวิธีกาลัง 2 น้อยที่สุดคือ x
y 1
0
ˆ
ˆ
ˆ
+
=
ตัวแบบความสัมพันธ์เชิงเส้นเชิงเดี่ยว ในแต่ละคู่ลาดับของข้อมูล (x,y) คือ
และ ค่าความผิดพลาด (Residual of Error)
i
i
i x
y
+
+
= 1
0
y
yi
i
ˆ
−
=
7. 7
7
การวิเคราะห์ความถดถอย (Regression Analysis)
นอกจากนี้ แทนค่าองค์ประกอบต่างๆ เพื่อหาค่า ได้ดังนี้ คือ
1
0
ˆ
,
ˆ
n
y
x
y
x
y
y
x
x
S
n
x
x
x
x
S
n
i
i
n
i
i
n
i
i
i
i
n
i
i
xy
n
i
i
n
i
i
n
i
i
xx
=
=
=
=
=
=
=
−
=
−
−
=
−
=
−
=
1
1
1
1
2
1
1
2
2
1
)
)(
(
)
(
xx
xy
S
S
=
1
̂
ดังนั้น จะได้ว่า
8. 8
8
การวิเคราะห์ความถดถอย (Regression Analysis)
เมื่อได้สมการประมาณค่าของสมการถดถอยเชิงเส้นแล้ว ก่อนจะนาไปใช้ในการทานายค่าของตัวแปรตาม Y ได้ จะต้องทาการ
ตรวจสอบก่อนว่า ตัวแปรทั้งสองคือตัวแปรอิสระ X และตัวแปรตาม Y มีความสัมพันธ์เชิงเส้นตรงจริงหรือไม่ ด้วย การทดสอบ
สมมติฐานของพารามิเตอร์ความชัน β1 เพื่อดูว่าค่าความชันระหว่าง 2 ตัวแปรมีค่าเป็น 0, บวก หรือลบ
- ถ้าค่าความชันเป็น 0 (หรือ β1 = 0) แสดงว่าตัวแปร X และ Y ไม่มีความสัมพันธ์กัน
- ถ้าค่าความชันเป็นบวกหรือลบ (β1 > 0 หรือ β1 < 0) แสดงว่าตัวแปร X และ Y มีความสัมพันธ์กัน
9. 9
9
การวิเคราะห์ความถดถอย (Regression Analysis)
การทดสอบสมมติฐานของความชัน β1 นั้นสามารถทาได้ 2 วิธีคือ ใช้ t หรือ F (ตาราง ANOVA)
วิธีที่ 1 ใช้สถิติทดสอบ t ขั้นตอนการตั้งสมมติฐานทั้ง 6 ขั้นตอน ประกอบด้วย
1). H0 : β1 = 0 (หมายถึงตัวแปร X และ Y ไม่มีความสัมพันธ์กัน)
2). H1 : β1 ≠ 0 (หมายถึงตัวแปร X และ Y มีความสัมพันธ์กัน)
3). กาหนดระดับนัยสาคัญของการทดสอบ α
4). บริเวณวิกฤติ t > tα/2, n–2 และ t < –tα/2, n–2
5). ค่าสถิติ
6. สรุปผล ถ้า | t0 | ≤ tα/2, n–2 จะสรุปว่ายอมรับสมมติฐานหลัก H0
ถ้า | t0 | > tα/2, n–2 จะสรุปว่าปฏิเสธสมมติฐานหลัก H0
xx
E S
MS
t
/
ˆ
1
0
=
=
=
=
−
−
=
−
=
=
−
=
n
i
xy
i
n
i
i
i
n
i
E
E
E
S
y
n
y
y
y
SS
n
SS
MS
i
1
1
2
2
1
2
1
2 ˆ
(
)
ˆ
(
2
10. 10
10
การวิเคราะห์ความถดถอย (Regression Analysis)
การทดสอบสมมติฐานของความชัน β1 นั้นสามารถทาได้ 2 วิธีคือ ใช้ t หรือ F (ตาราง ANOVA)
วิธีที่ 2 ใช้สถิติทดสอบ F ขั้นตอนการตั้งสมมติฐานทั้ง 6 ขั้นตอน ประกอบด้วย
1). H0 : β1 = 0 (หมายถึงตัวแปร X และ Y ไม่มีความสัมพันธ์กัน)
2). H1 : β1 ≠ 0 (หมายถึงตัวแปร X และ Y มีความสัมพันธ์กัน)
3). กาหนดระดับนัยสาคัญของการทดสอบ α
4). บริเวณวิกฤติ F > Fα,1,n–2
5). ค่าสถิติใช้ตาราง ANOVA วิเคราะห์หาค่าสถิติ F0
6. สรุปผล ถ้า F0 ≤ Fα, 1, n–2 ยอมรับ H0
ถ้า F0 > Fα, 1, n–2 ปฏิเสธ H0
11. 11
11
การวิเคราะห์ความถดถอย (Regression Analysis)
การสรุปผลของการทดสอบสมมติฐาน β1 นั้น พบว่าถ้าผลสรุปยอมรับสมมติฐานหลัก H0 แสดงว่าไม่มีความสัมพันธ์เชิงเส้น
ระหว่างตัวแปร X และ Y ดังนั้น จึงไม่สามารถใช้สมการถดถอยเชิงเส้นที่สร้างขึ้นในการทานายค่าของ Y ได้
สาหรับการยอมรับสมมติฐานหลัก H0 นั้นตีความหมายได้ 2 แบบคือ
1). ตัวแปร X ไม่มีผลต่อตัวแปร Y
2). ความสัมพันธ์ระหว่างตัวแปร X และ Y ไม่ใช่เชิงเส้นตรง
ถ้าผลสรุป ปฏิเสธสมมติฐานหลัก H0 แสดงว่าตัวแปร X และ Y มีความสัมพันธ์
เชิงเส้นต่อกัน หรืออาจกล่าวได้ว่าตัวแปร X มีผลต่อตัวแปร Y แต่จะใช้สมการถดถอยได้นั้น ควรตรวจสอบรูปแบบความ
สัมพันธ์ระหว่างตัวแปร X กับ Y ด้วยแผนภาพการกระจาย (Scatter Plot) เสียก่อน
สาหรับการปฏิเสธสมมติฐานหลัก H0 นั้น ตีความหมายได้ 2 แบบคือ
1). ตัวแปร X และ Y แสดงความสัมพันธ์เชิงเส้นซึ่งสมการถดถอยเชิงเส้น
2). ความสัมพันธ์ระหว่าง X และ Y เป็นรูปแบบอื่นๆ ที่ไม่ใช่เส้นตรง
17. 17
17
2. Lack – Fit Test
Lack – Fit Test เป็นการตรวจสอบดูว่าตัวแบบการถดถอย (Regression Model) มีลักษณะของความสัมพันธ์ที่เหมาะ (Fit)
กับข้อมูลหรือไม่ รูปที่ 11.12 จะแสดงให้เห็นว่าข้อมูลกับ Regression Model ไม่เหมาะกัน (Lack of Fit) แนวโน้มของ
ข้อมูลไม่เป็นเชิงเส้น ซึ่งขัดแย้งกับสมการถดถอยเชิงเส้นตรง
การทดสอบความเหมาะสมของ Model
3.Coefficient of Determination (r2)
Coefficient of Determination (r2) เป็นค่าสัมประสิทธิ์การตัดสินใจ
จะถูกใช้บ่อยในการตัดสินใจว่า Regression Model ที่ได้มีความ
เหมาะสมหรือไม่ การคานวณค่า r2 จะแสดงในหัวข้อสหสัมพันธ์
(Correlation)
18. 18
18
สหสัมพันธ์เชิงเส้น (Linear Correlation)
สหสัมพันธ์คือ ตัวชี้วัดความสัมพันธ์ระหว่างตัวแปรตั้งแต่ 2 ตัวขึ้นไปว่ามีความสัมพันธ์กันมากน้อยเพียงใด ในที่นี้จะศึกษาเฉพาะ
ตัวแปรเพียง 2 ตัว สาหรับสหสัมพันธ์เชิงเส้นระหว่างตัวแปร X และ Y จะเป็นการศึกษาถึงความสัมพันธ์เชิงเส้นตรงว่ามีมากน้อย
เพียงใด สัมประสิทธิ์ที่ใช้วัดความสัมพันธ์มากน้อยระหว่างตัวแปรเรียกว่า สัมประสิทธิ์สหสัมพันธ์(Correlation Coefficient, ρ)
y
x
y
x
Y
E
X
E
XY
E
y
x
Cov
)
(
)
(
)
(
)
,
( −
=
=
สาหรับค่าประมาณของสัมประสิทธิ์สหสัมพันธ์ ρ คือ สัมประสิทธิ์สหสัมพันธ์ตัวอย่าง (Sample Correlation, r)
T
R
yy
xx
yy
xx
xy
n
i
n
i
i
i
n
i
i
i
SS
SS
S
S
S
S
S
y
y
x
x
y
y
x
x
r =
=
=
−
−
−
−
=
= =
=
1
1 1
2
2
1 ˆ
)
(
)
(
)
)(
(
20. 20
20
สหสัมพันธ์เชิงเส้น (Linear Correlation)
นอกจากค่าสัมประสิทธิ์สหสัมพันธ์แล้ว ยังมีสัมประสิทธิ์แสดงการตัดสินใจ (Coefficient of Determination, r2) ที่ใช้เป็นตัว
วัดความสัมพันธ์เชิงเส้นระหว่างตัวแปร X และ Y
ค่า r2 มีค่าตั้งแต่ 0 ถึง 1 (0 ≤ r2 ≤ 1) การอธิบายความสัมพันธ์จะอยู่ในรูปของเปอร์เซ็นต์ โดยแสดงว่า 100r2% ของการ
แปรผันของตัวแปร Y เป็นผลเนื่องมาจากการมีสัมพันธ์เชิงเส้นกับตัวแปร X เช่น r = 0.80 (หรือ r2 = 0.64) หมายความว่า
64% ของการแปรผันของตัวแปร Y เป็นผลเนื่องมาจากการมีสัมพันธ์เชิงเส้นกับตัวแปร X
T
R
T
E
T
SS
SS
SS
SS
SS
r =
−
=
2