1. 1/28
ỨNG DỤNG PHƯƠNG PHÁP ARIMA TRONG
DỰ BÁO MỰC NƯỚC TẠI TRẠM TÂN CHÂU
ĐỒNG BẰNG SÔNG CỬU LONG
Sinh viên thực hiện: Trần Thị Dung
Lớp: 58PM
Mã sinh viên: 1651170637
Giảng viên hướng dẫn: PGS.TS. Nguyễn Thanh Tùng
TS. Đỗ Lân
Hà Nội, 8 - 2020
4. Đặt vấn đề
Vị trí địa lý:
Tỉnh An Giang là địa phương có đặc điểm kinh tế - xã hội
tương đối đặc trưng cho cả vùng đồng bằng Sông Cửu
Long. Hơn nữa đây là địa phương ở đoạn đầu của sông Mê
Kông đổ về Việt Nam từ biên giới Campuchia qua Tân
Châu (sông Tiền) và Châu Đốc (sông Hậu).
Tình hình lũ lụt:
Hàng năm vào mùa lũ thì nơi đây chịu ảnh hưởng nhiều
nhất bởi lũ lụt. Lượng nước đổ về gây ngập khoảng 70%
diện tích đất tự nhiên, thời gian ngập kéo dài từ 2.5 đến 5
tháng.
4/28
5. Đặt vấn đề
Việc dự báo và đánh giá sớm được mực nước tại trạm
Tân Châu đóng vai trò rất quan trọng trong việc giảm thiểu
nguy cơ gây thiệt hại cho tỉnh An Giang.
5/28
7. Chuỗi thời gian
Khái niệm:
Chuỗi thời gian là một dãy các giá trị quan sát
được xếp thứ tự theo diễn biến thời gian.
1 2
{ , ,... }
n
Y y y y
Hình 2.1 Đồ thị về một chuỗi thời gian
7/28
8. Tính dừng
Chuỗi thời gian được gọi là dừng nếu:
Kỳ vọng:
Phương sai:
Hiệp phương sai:
( )
t
E Y const
t
Y
2 2
( ) ( )
t t
Var Y E Y const
( , ) [( )( )]
t k t t t k k
Cov Y Y E Y Y const
8/28
9. Phương pháp sai phân hóa
Sai phân cấp d của một chuỗi thời gian được xây dựng
như sau:
Sai phân cấp I:
Sai phân cấp II:
…
Sai phân cấp d:
t
y
1
( )
t t t
y y y
2
1 1 2
( ) ( ) ( ) ( )
t t t t t t
y y y y y y
1
( )
d
t
y
9/28
10. Giới thiệu về mô hình ARIMA
Mô hình ARIMA là một trong những mô hình thống kê
tuyến tính phổ biến nhất để dự báo cho chuỗi thời gian đơn
biến.
Mô hình ARIMA là sự kết hợp của quá trình tự hồi quy
(auto-regressive) và quá trình trung bình trượt (moving
average).
10/28
11. Quá trình tự hồi quy bậc p – AR(p)
Mô hình tự hồi quy bậc p (AR (p)) có dạng:
trong đó:
: giá trị hiện tại của quan sát;
: giá trị của quan sát tại các thời điểm quá khứ;
: các hệ số hồi quy;
: sai số ngẫu nhiên tại thời điểm .
0 1 1 2 2 ...
t t t p t p t
y y y y
t
y
1 2
, ,..
t t
y y
0 1 2
, , ,...
t
t
11/28
( 1 )
12. Quá trình trung bình trượt bậc q – MA(q)
Mô hình trung bình trượt bậc q (MA(q)) có dạng:
trong đó:
: giá trị quan sát thời điểm hiện tại;
: sai số dự báo ngẫu nhiên;
: sai số dự báo tại các thời điểm quá khứ;
: giá trị trung bình của ;
: các hệ số trung bình trượt.
1 1 2 2 ...
t t t t q t q
y
t
y
t
1 2
, ,...
t t
t
y
1 2
, ,...
12/28
( 2 )
13. Quá trình ARIMA (p,d,q)
Mô hình ARIMA (p,d,q) tổng quá có dạng:
trong đó:
: là sai phân bậc d của chuỗi thời gian;
: là một hằng số;
: là các hệ số tự hồi quy;
: là các hệ số trung bình trượt;
: là nhiễu trắng tại thời điểm .
0
1 1
p q
d
t i t i t j t j
i j
y y
d
t
y
0
1,... p
1,..., q
t
t
13/28
( 3 )
16. Mô tả dữ liệu
Dữ liệu được thu thập tại trạm Tân Châu, ghi lại mực nước
theo từng giờ trong 5 tháng (từ 1h ngày 1/7/2000 đến 23h
ngày 30/11/2000). Đơn vị được tính bằng mét và có 3672
bản ghi.
Chia bộ dự liệu thành 2 phần:
Dataset : 3552 bản ghi đầu
Validation: 120 bản ghi cuối
16/28
17. Nhận dạng mô hình
Hình 3.1 Dữ liệu mực nước Hình 3.2 Dữ liệu sau khi lấy sai phân bậc 1
17/28
d = 1
18. Nhận dạng mô hình
Hình 3.4 Đồ thị tự tương quan ACF
Hình 3.3 Đồ thị tự tương quan từng
phần PACF
Mô hình AR(3) và MA(2) hay p = 3, q = 2
18/28
19. Ước lượng mô hình
Kết quả của quá trình ước lượng mô hình:
19/28
1 2.047
2 1.5203
3 0.2975
1 1.7294
2 0.9698
5
0 8.42e
20. Kiểm tra chuẩn đoán mô hình
Hình 3.5 Đồ thị tự tương quan và tự tương quan từng
phần sau khi chạy mô hình tối ưu
20/28
21. Dự báo
Kết quả dự báo:
Hình 3.6 Đồ thị đường dự báo màu đỏ (màu xanh là dữ liệu quan trắc)
21/28
22. Đánh giá độ chính xác
Các chỉ số đánh giá độ phù hợp của mô hình:
MSE = 5.5241964186714534e-05
MAE = 0.005764343947259084
R2 = 0.9908736118347249
22/28
24. So sánh giá trị dự báo và giá trị thực đo
Thời gian Thực tế Dự báo
0h ngày 26/11/2000 2.98 2.985939
1h ngày 26/11/2000 2.97 2.980025
2h ngày 26/11/2000 2.97 2.974116
3h ngày 26/11/2000 2.96 2.964823
4h ngày 26/11/2000 2.96 2.960280
Bảng 3.1 So sánh giá trị dự báo và giá trị thực đo
24/28
26. Kết quả đạt được
Xây dựng mô hình ARIMA để dự báo mực nước.
Xây dựng ứng dụng trên window để dự báo mực nước
tại trạm Tân Châu.
26/28
27. Hướng phát triển
ARIMA là một trong những mô hình thống kê tuyến tính
nổi tiếng để dự báo chuỗi thời gian.
Các mô hình học máy thống kê lại rất phù hợp với chuỗi
thời gian phi tuyến.
Mà trong thực tế, một chuỗi thời gian thường bao gồm cả
cấu trúc tương quan tuyến tính và phi tuyến.
Việc kết hợp 2 phương pháp này lại với nhau nhằm giải
quyết thêm nhiều bài toán dự báo chuỗi thời gian và cho ra
kết quả tốt.
27/28
Chia bộ dữ liệu thành 2 phần: dataset và validation.
+ Phần đầu tiên là tập dữ liệu huấn luyện (dataset) em sử dụng để huấn luyện mô hình. Tập dữ liệu này gồm 3552 bản ghi đầu tiên.
+ Phần thứ hai là tập dữ liệu thử nghiệm (validation) em dùng để kiểm thử mô hình. Tập dữ liệu này gồm 120 bản ghi cuối cùng.