Huong dan su dung medcalc

0
NGUYỄN HỮU SƠN
SỬ DỤNG PHẦN MỀM
MedCalc
TRONG THỐNG KÊ Y HỌC
Hu , 11-2010

1
LỜI NÓI ĐẦU
Thống kê và phân tích số liệu là một khâu rất quan trọng trong tiến trình thực hiện các công
trình nghiên cứu y học. Ngƣời làm công tác nghiên cứu khoa học bên cạnh kiến thức chuyên môn
giỏi, cần có những hiểu biết về phƣơng pháp thống kê y học.
Thống kê y học đƣợc thực hiện qua các thuật toán thống kê (test thống kê) với những công
thức tính toán khá phức tạp. Các phần mềm thống kê chạy trên máy vi tính là công cụ hữu ích để
thực hiện các test thống kê này nhanh chóng, thuận tiện và chính xác. Đối với ngƣời làm nghiên cứu
khoa học, điều quan trọng là phải nắm đƣợc thuật toán nào phù hợp với mô hình nghiên cứu của
mình, còn việc tính toán sẽ tiến hành trên máy tính với các phần mềm tùy chọn.
Hiện nay, có rất nhiều phần mềm thống kê đang đƣợc sử dụng nhƣ: Epi, Stata, Medcalc,
Spss... trong đó phần mềm Medcalc đƣợc ứng dụng đặc thù trong nghiên cứu y học. Medcalc có
dung lƣợng nhỏ, dễ cài đặt. Việc thực hiện các lệnh bằng con chuột (Epi và Stata thực hiện bằng
câu lệnh) với cửa sổ thao tác trực quan, dễ hiểu. Kết quả phân tích số liệu cho ra các bảng, biểu đồ
rõ ràng, màu sắc đẹp, có thể cắt dán dễ dàng vào các trang nghiên cứu khoa học hoặc luận văn, luận
án. Chƣơng trình Medcalc còn cho phép thực hiện các test thống kê trực tiếp từ các bảng trình bày
, rất hữu ích cho các nhà phản biện muốn kiểm tra tính chính xác của các kết
quả này. Đây là một tiện ích của chƣơng trình medcalc mà không phải phần mềm xử lý số liệu nào
cũng có đƣợc.
Trong phạm vi cuốn sách này, chúng tôi giới thiệu những thuật toán thống kê cơ bản nhất
thƣờng đƣợc sử dụng khi viết luận văn, luận án y khoa.
ọa, hy vọng rằng các bạn sinh viên Y6, học viên sau đại học và quý đồng nghiệp có thể
ứng dụng chƣơng trình Medcalc vào phân tích số liệu khi thực hiện các đề tài nghiên cứu .
Rất mong nhận đƣợc sự góp ý của quý bạn đọc, của học viên và đồng nghiệp để tập sách
ngày càng hoàn chỉnh và hữu ích hơn. Các ý kiến đóng góp xin gửi qua hộp thƣ điện tử
nghuuson@gmail.com.
Huế, tháng 11 năm 2010
Tác giả
Ths.Bs.
-

2
Chƣơng 1
GIỚI THIỆU CHƢƠNG TRÌNH MEDCALC
Sách hƣớng dẫn này dựa trên phiên bản Medcalc 11.3.1.0 (updated 8/2010). Bạn đọc có thể
download phần mềm từ website http://www.medcalc.be để có đƣợc phiên bản cập nhật sau cùng.
Phần mềm Medcalc đƣợc cài đặt tƣơng thích với Window 7, Vista, XP.
1.1. Cửa sổ chính
Cửa sổ làm việc của chƣơng trình nhƣ sau:
Thanh thực đơn (menu) bao gồm:
+ File: để tạo file mới (new), mở file đã có (open); lƣu (save/ save as)..
+ Edit: để thực hiện lệnh copy, cắt (cut), dán (paste)...
+ Statistics: chứa các lệnh để thực hiện tất cả các test thống kê.
+ Graphs: vào menu này để vẽ các biểu đồ.
+ Test: vào menu này để thực hiện các test thống kê trực tiếp từ các bảng trình bày trong
luận văn, luận án. Phần này rất hữu ích để tính "giá trị p" mà không cần có số liệu gốc.
1.2. Cửa sổ số liệu (data)
Kích chuột vào nút (data) để mở cửa sổ số liệu.
Cửa sổ số liệu có hình thức giống một bảng tính excel (microsoft excel). Hàng trên cùng
(ngay trên hàng số 1) để ghi tên biến. Từ hàng số 1 trở đi nhập giá trị của biến.
Cửa sổ sổ liệu
(Data)
Kích đôi chuột vào
Data để mở cửa sổ
nhập số liệu

3
Các thao tác chính trong cửa sổ số liệu:
- Nhập số liệu.
- Di chuyển giữa các ô: dùng phím Tab hoặc phím mũi tên.
- Chọn (highlight):
+ Chọn 1 hoặc nhiều ô liền nhau: Dùng chuột kích vào ô cần chọn hoặc rê chuột qua tất cả
các ô cần chọn.
+ Chọn cột: Đƣa chuột đến vị trí cột (vị trí các chữ cái A, B,..), con trỏ chuột biến thành mũi
tên hƣớng xuống, kích chuột vào cột cần chọn.
+ Chọn hàng: Đƣa chuột đến vị trí hàng (vị trí số thứ tự 1, 2,..), con trỏ chuột biến thành mũi
tên hƣớng sang phải, kích chuột vào hàng cần chọn
+ Xóa hàng (cột): Kích chuột phải (right click) vào hàng (cột) cần xóa, chọn Remove -->
Rows (Columns)
+ Chèn thêm hàng (cột): Kích chuột phải vào vị trí cần chèn thêm hàng (cột), chọn Insert --
> Rows (Columns). Hàng mới chèn thêm vào bên trên hàng đƣợc chọn, cột mới chèn thêm vào bên
trái cột đƣợc chọn.
- Biên tập số liệu: copy, cắt (cut), dán (paste) vùng đƣợc chọn. Tại các ô của cửa sổ số liệu,
có thể thực hiện các phép tính từ đơn giản đến phức tạp. Ví dụ: nhập 3*12 sẽ hiển thị kết quả 36.
Ghi chú: Trong quá trình biên tập số liệu, muốn quay lại những thao tác trƣớc đó (ví dụ xóa
nhầm, nhập sai...), kích chuột vào nút Undo trên thanh công cụ.
Có thể thay đổi độ rộng của cột bằng cách giữ và rê chuột ở vị trí đƣờng phân cách giữa 2
cột (lúc này con trỏ chuột có hình 2 mũi tên):

4
1.3. Hộp thoại
Các thao tác trong medcalc đƣợc thực hiện thông qua hộp thoại (dialog box). Hộp thoại
đƣợc dùng để lựa chọn các tính năng và rút các biến đƣa vào phân tích.
Một hộp thoại thƣờng có các thành phần sau:
- Variable: Chứa danh sách các biến nguồn. Kích chuột vào nút để sổ xuống danh sách
các biến này. Các biến đƣợc xếp theo thứ tự alphabet.
- Select: Để chọn một đặc tính nào đó của biến. Dùng chức năng này khi muốn chọn một
nhóm để đƣa vào phân tích. Ví dụ sau sẽ tính tuổi trung bình của những ngƣời có HATT > 140
mmHg.
- More Options: Các tùy chọn. Khi bấm chuột vào nút này sẽ mở ra một hộp thoại phụ.
1.4. Mở một bảng số liệu đã có
- Vào menu File  Open
Giữ và rê chuột ở đây để
giãn độ rộng của cột

5
- Tìm đến vị trí lƣu file số liệu trong ổ đĩa máy tính, chọn file cần mở và kích vào nút Open.
- Chƣơng trình Medcalc sử dụng đƣợc file số liệu đƣợc tạo ra từ các chƣơng trình Excel,
Stata, Spss... Khi đó tại mục File of type ta chọn kiểu file là Excel, Stata, Spss... hoặc All file để
hiển thị file cần mở trong hộp thoại.
1.5. Lƣu số liệu
- Vào File  Save
- Đặt tên file cần lƣu và nhấn nút Save.
- Nếu muốn lƣu bằng một tên file khác, vào menu File  Save As (thao tác tƣơng tự).
- File số liệu mặc định của medcalc có phần mở rộng mc1 (ví dụ solieu.mc1). Nếu cần lƣu
thành file excel, spss... kích chuột vào mục Save as type để chọn kiểu file tƣơng ứng.

6
Chƣơng 2
NHẬP SỐ LIỆU
2.1. Kích hoạt cửa sổ nhập số liệu
Kích chuột (double click) vào nút Data trên thanh công cụ để mở cửa sổ nhập số liệu.
Hàng trên cùng (ngay trên hàng số 1) dùng để ghi tên biến (variable name). Từ hàng số 1 trở
đi nhập giá trị của biến (variable value).
Chú ý:
- Tên biến không giới hạn số ký tự 11.0). Nếu khi nhập tên biến nếu
có khoảng cách giữa 2 chữ, phần mềm sẽ tự động thêm dấu gạch ngang ( _ ) giữa hai chữ đó (ví dụ
nhập ho va ten sẽ tự động chuyển thành ho_va_ten). Không nên dùng 2 tên biến giống nhau, không
nên đánh tiếng việt có dấu.
Ví dụ: ho_va_ten, tuoi, gioi, ngay_vao_vien, chan_doan,..
- Cần phân biệt tên biến (variable name) với giá trị trị của biến (variable value). Có thể hiểu
tên biến là tên của mỗi cột trong bảng. Trong ví dụ trên: tên biến tuổi có giá trị là tuổi thực của từng
ngƣời; tên biến giới có 2 giá trị đƣợc mã hóa là 1=nam, 2=nữ.
2.2. Nhập số liệu
Thao tác nhập số liệu tƣơng tự trong excel. Để thuận tiện cho việc xử lý số liệu, khi nhập số
liệu cần chú ý:
Đối với biến chuổi (string) nhƣ họ tên hoặc biến số thực (numeric) nhƣ tuổi, huyết áp...:
nhập trực tiếp giá trị của biến. Không cần phân chia thành các nhóm (nhóm tuổi, phân độ tăng huyết
áp...) từ lúc này. Phần mềm có các công cụ để thực hiện công việc đó một cách nhanh chóng, chính
xác (xem phần tạo biến mới).
Đối với các biến định tính:
- Mã hóa các giá trị của biến định tính bằng số:
Ví dụ: Giới: 1=nam; 2=nữ
TĐVH: 1=cấp 1; 2=cấp 2; 3=cấp 3; ...
- Đối với câu hỏi đóng mà kết quả có thể nhiều hơn 1 sự lựa chọn:
Ví dụ: Tiền sử: 1: đái đƣờng
2: tăng huyết áp
3: béo phì
Một bệnh nhân có thể có nhiều hơn một tiền sử + THA). Trong tình huống
Ghi tên biến vào hàng này (ngay
trên hàng số 1)

7
này, câu hỏi đƣợc chia ra nhƣ sau:
Tiền sử đái đƣờng: 0=không; 1=có
Tiền sử tăng huyết áp:0=không; 1=có
Tiền sử béo phì: 0=không; 1=có
Nhƣ vậy, những câu hỏi mà kết quả có thể nhiều hơn 1 sự lựa chọn thì mỗi sự lựa chọn
đó là một tên biến (variable name) mang 2 giá trị "không" hoặc "có"
Chú ý: các phần tiếp theo, chúng tôi qui ƣớc mã hóa 0=không; 1=có cho tất cả các biến định
tính xác định hai trạng thái: có / không
A B C D E
hot_ten Ts_THA Ts_DTD Ts_BeoPhi
1 Nguyen Van A 0 1 1
2 Le Thi C 1 0 1
3 Tran Van Nguyen 1 1 0
Phần mềm sẽ dễ dàng chọn ra đƣợc những bệnh nhân có 1, 2 hoặc 3 tiền sử bằng thuật toán
AND (xem phần tạo biến mới). Ví dụ: để chọn những bệnh nhân có tiền sử ĐTĐ + THA (và không
béo phì), dùng thuật toán sau:
AND(Ts_DTD=1, Ts_THA=1, Ts_BeoPhi=0)
- Đối với câu hỏi mở:
Ví dụ: Lý do vào viện: .................................................
Chẩn đoán: .......................................................
Nên mã hóa các kết quả khi số lƣợng các câu trả lời có giới hạn, chẳng hạn:
Chẩn đoán: 1= Thông liên thất + Thông liên nhĩ
2= Còn ống động mạch + hẹp ĐM phổi
3= Thông sàn nhĩ thất + .....
4= .........
Tất nhiên có những câu hỏi mở mà sự trả lời không thể mã hóa đƣợc thì nhập trực tiếp các
kết quả từ bàn phím.
Đối với biến ngày tháng (date) nhƣ ngày vào viện, ngày ra viện... ban đầu nhập vào có thể
không hiển thị ngày tháng, ví dụ nhập 1/2/2009 nhƣng hiển thị 0,00049776 (tức là kết quả của một
phép chia). Vì vậy phải định dạng lại cột chứa biến ngày tháng. Thao tác nhƣ sau:
- Chọn (highlight) cột có chứa biến ngày tháng
- Thao tác lệnh:
Format
Spreadsheet

8
- Tại bảng Column: chọn vào Text format, có nghĩa định dạng cột kiểu text (ký tự)
Ghi chú: Nếu không chọn Text format sẽ định dạng cột kiểu số (numeric): chọn tiếp
Column with (số ký tự tối đa), Decimals (số thập phân: bao nhiêu số sau dấu phẩy).
2.3. Tạo một biến mới từ các biến đã có
Trong quá trình phân tích số liệu, nhiều khi số liệu ban đầu nhập vào chƣa đáp ứng với yêu
cầu của phƣơng pháp phân tích đƣợc sử dụng, mà cần phải thực hiện các phép biến đổi để tạo ra các
biến mới thích hợp. Ví dụ: từ biến ban đầu nhập vào là huyết áp tạo ra biến mới phân độ tăng huyết
áp, từ 2 biến chiều cao và cân nặng tạo ra biến BMI
2.3.1. Từ biến định lượng, tạo ra các nhóm định tính
Thủ tục này sẽ định tính hóa biến định lƣợng bằng cách chia biến định lƣợng thành các
khoảng (hay nhóm).
Ví dụ: từ số liệu ban đầu nhập vào là tuổi bệnh nhân, muốn lập bảng sau:
Nhóm tuổi Số lƣợng (n) Tỷ lệ (%)
< 20 (nhóm 1)
20 - 40 (nhóm 2)
> 40 (nhóm 3)
Thao tác lệnh:
Tool
Create Groups
User Defined Groups
Tùy chọn:
Column: cột chứa biến mới. Phần mềm tự động chọn cột trống cuối cùng của bảng (không
cần chọn lại nếu không cần thiết).
Header: (ví dụ: nhóm tuổi)
Variable: (tuổi) (dùng chuột kích vào mũi tên sổ xuống để chọn biến)
Operator: Chọn dấu thích hợp: >, <
Criterion value:

9
Group/category: : 1, 2, 3,..
Diễn giải thuật toán if... else if (nếu ... không thì nếu...):
Nếu tuổi < 20 --> qui ƣớc nhóm 1,
Nếu không (tức chỉ còn lại tuổi ≥ 20) thì:
Nếu tuổi ≤ 40 (tức 20 - 40) --> qui ƣớc nhóm 2,
Nếu không (tức chỉ còn lại tuổi > 40) thì:
Nếu tuổi > 40 --> qui ƣớc nhóm 3.
Kết quả: Biến nhóm tuổi đƣợc tự động thêm vào cột cuối cùng của bảng số liệu, có giá trị
đƣợc mã hóa theo các độ tuổi nói trên.
A B C D E
hot_ten tuoi gioi nhom_tuoi
2 Le Thi C 30 2 2
4 Tran Hoang 19 1 1
2.3.2. Tạo ra biến mới bằng các thuật toán
Ví dụ 1: từ 2 biến đã có là chiều cao và cân nặng, tạo ra biến BMI bằng thuật toán:
BMI=
Nhập tên biến mới BMI vào cột thích hợp. Đặt con trỏ vào cột chứa biến đó (ở hàng nào
cũng đƣợc).

10
A B C D E
hot_ten cannang chieucao BMI beo_phi
1 Nguyen Van A 45 1,60
2 Le Thi C 49 1,58
3 Tran Van Nguyen 62 1,65
4 Tran Hoang 60 1,68
Thao tác lệnh:
Format
SpreadSheet
Chọn Tab Column
Hộp thoại Format Spreadsheet mở ra, kích chuột vào nút sẽ mở ra hộp thoại Formula
editor.
Thực hiện công thức tính toán tại khung Formula: chọn biến cần đƣa vào công thức tính
toán, kích đôi chuột vào biến đó để đƣa vào khung Formula
Kích
đôi
chuột

11
Nhấn OK để kết thúc. Các giá trị của biến BMI sẽ đƣợc tạo ra và điền vào cột chứa biến đó.
Ví dụ 2: Đánh giá béo phì dựa vào BMI (theo từng giới): nam béo phì nếu BMI>24; nữ béo
phì nếu BMI>22
giới = 1 và BMI>24
Thuật toán: Béo phì =
giới = 2 và BMI>22
(mã hóa: giới=1: nam; giới=2: nữ)
Nhập tên biến mới béo phì vào cột thích hợp, đặt con trỏ vào cột chứa biến đó.
Thao tác lệnh:
Format
Spread Sheet
Chọn Tab Column, kích chuột vào nút fx.
Thực hiện thuật toán tại ô Formula: Tại khung Functions có chứa sẵn các loại hàm số, chọn
hàm số thích hợp và kích chuột đôi để đƣa hàm đó vào khung Formula. Trên cơ sở đó chèn thêm
các biến vào hàm số.
Nhấn OK để kết thúc.
Kết quả: Biến mới béo phì sẽ có 2 giá trị: 0=không; 1=có
Ví dụ 3: Tiền sử bệnh nhân, muốn lập bảng sau
Tiền sử Số lƣợng (n) Tỷ lệ (%)
Đái đƣờng + THA
Đái đƣờng + Béo phì
THA+Béo phì
..................

12
Từ bảng số liệu ban đầu:
A B C D E F
hot_ten Ts_THA Ts_DTD Ts_BeoPhi Ts_THA_DTD Ts_THA_BP
2 Le Thi C 1 0 1
3 Tr Van Nguyen 1 1 0
Nhập tên biến mới Tiền sử ĐTĐ + THA vào cột thích hợp, đặt con trỏ tại vị trí cột chứa biến
mới tạo ra. Sử dụng thuật toán sau:
Ts_DTD=1 và Ts_THA=1 và Ts_Beophi=0
Thao tác lệnh:
Format
SpreadSheet
Chọn Tab Column, kích chuột vào fx
Thực hiện thuật toán tại ô Formula:
Kết quả: Tiền sử ĐTĐ + THA sẽ có 2 giá trị: 0=không; 1=có
Thực hiện tƣơng tự đối với các tổ hợp còn lại (ĐTĐ+Béo phì; THA+Béo phì...)
".
Sử dụng thuật : = >37,5
Nhập tên biến mới Sốt vào cột trống thích hợp, đặt con trỏ tại cột đó.
Thao tác lệnh
Format
SpreadSheet

13
Chọn Tab Column, kích chuột vào fx.
T :
: 0= ; 1=
2.4. Kiểm soát bảng số liệu
 Sắp xếp số liệu (sort): nhằm dễ dàng phát hiện những giá trị bất thƣờng nhƣ: giá trị
khuyết (missing value), giá trị nhập sai (quá lớn hoặc quá nhỏ)...
Thao tác lệnh:
Tool
Sort rows
Tùy chọn:
Sort by column: Xác định sắp xếp số liệu theo cột (biến) nào
Sort from row - To row: mặc định từ hàng số 1 đến hàng cuối cùng của bảng số liệu.
Sort options: Ascending (tăng dần); Descending (giảm dần).

14
 Thay thế trị khuyết:
Thao tác lệnh:
Tool
Fill column
Tùy chọn:
Column: Chọn cột cần điền giá trị khuyết
Sort from row - To row: mặc định từ hàng số 1 đến hàng cuối cùng của bảng số liệu.
Fill with: nhập giá trị cần thay thế hoặc thực hiện các công thức tính toán bằng cách nhấn
chuột vào nút fx để mở hộp thoại formula editor.
2.5. Lọc số liệu
Trong quá trình xử lý số liệu, có lúc ta cần chọn ra một nhóm nhỏ để khảo sát các đặc tính
trong phạm vi nhóm đó. Ví dụ bảng số liệu sau:
A B C D E
hot_ten cannang chieucao Nhom_NC
1 Nguyen Van A 45 1,60 1
2 Le Thi C 49 1,58 2
3 Tran Van Nguyen 62 1,65 1
4 Tran Hoang 60 1,68 2
)
Nếu muốn thực hiện các tính toán riêng biệt ở nhóm chứng (hoặc nhóm bệnh), ta phải tiến
hành lọc số liệu, tức phải chọn ra nhóm chứng (hoặc nhóm bệnh).
Để thực hiện thủ tục này, ở tất cả các hộp thoại đều có mục Select, sử dụng mục này để lọc
số liệu. Trong mục Select không chứa sẵn danh sách các biến mà phải đánh vào từ bàn phím. Vì
vậy cần phải nhập chính xác tên biến.
Ví dụ sau sẽ tính tỉ lệ giới ở nhóm chứng:

15
Hình 2.15. Chọn nhóm nghiên cứu
Ví dụ này sẽ tính tỉ lệ giới ở nhóm bệnh nhân > 40 tuổi:
Hình 2.16. Chọn tuổi > 40

16
Chƣơng 3
THỐNG KÊ MÔ TẢ
Thống kê mô tả là bƣớc cơ bản và cũng là bƣớc khởi đầu của một nghiên cứu y học. Thống
kê mô tả là phƣơng pháp thống kê giúp mô tả những đặc tính (giá trị trung bình, độ phân tán, tỉ lệ...)
của một mẫu nghiên cứu xác định, trên cơ sở những số liệu thu thập đƣợc từ mẫu ấy.
Nhƣ vậy, thống kê mô tả xử lý những thông tin trên mẫu (sample). Những kết quả đạt đƣợc
hiển nhiên đúng và tin cậy 100% đối với mẫu đó (nhƣng chƣa hẳn đúng khi áp dụng cho mẫu khác
hoặc quần thể), vì thế khi đƣa ra những kết luận trên mẫu nghiên cứu không cần phải xác định độ
tin cậy (hoặc giá trị p) là bao nhiêu.
Ví dụ: trong ngày có 100 bệnh nhân sốt xuất huyết vào viện, phát hiện 20 trƣờng hợp bị
choáng. Kết luận 20/100 bệnh nhân sốt xuất huyết vào viện trong ngày hôm đó bị choáng (chiếm tỉ
lệ 20%, không thể hiện giá trị p ở đây).
3.1. Thống kê mô tả biến định tính
3.1.1. Một số khái niệm
Khi giá trị khảo sát không phải là một đại lƣợng có thể cân, đong, đo, đếm đƣợc mà chỉ thể
hiện một đặc tính nào đó của đối tƣợng khảo sát (ví dụ đặc tính giới tính của đối tƣợng khảo sát là
nam, nữ). Tùy theo tính chất các giá trị, biến số định tính có thể phân thành 2 loại:
- Biến số định danh: Biến số có 2 hay nhiều giá trị, mỗi giá trị đƣợc gọi bằng một tên, không
có ý nghĩa về độ lớn của sự đo dƣờng và cũng không có ý nghĩa so sánh với nhau. Ví dụ giới tính
của một ngƣời (nam, nữ), hay nhóm máu (A, B, AB, 0)...
- Biến số định tính nhiều giá trị thứ tự: Biến số có nhiều giá trị. Các giá trị của biến số thể
hiện một mức độ tăng dần hoặc giảm dần. Ví dụ mức độ tăng huyết áp: độ I, độ II, độ III, độ IV; xét
nghiệm định tính hồng cầu niệu: +, ++, +++.
3.1.2. Lập bảng phân phối tần số
Đối với biến định tính, kết quả thƣờng trình bày dƣới dạng bảng phân phối tần số (từ đó có
thể vẽ các biểu đồ).
* Bảng phân phối tần số một chiều:
Sử dụng bảng phân phối tần số một chiều để mô tả sự phân phối của một đặc tính nào đó.
Yêu cầu thiết kế: có một biến định tính chứa các đặc điểm cần khảo sát.
Thao tác lệnh:
Statistics
Categorical data
Frequency table & Chi-square test
Tùy chọn:
Codes X: chọn biến định tính
Codes Y: để trống
Ví dụ: Phân bố đối tƣợng nghiên cứu theo các nhóm tuổi
Nhóm tuổi Tần số (n) Tỉ lệ (%)
< 20 12 10.0
20 - 40 54 45.0

17
> 40 54 45.0
Tổng 120 100.0
Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:
Kết quả:
Codes X nhom_tuoi
1 12 10.0%
2 54 45.0%
3 54 45.0%
Total 120 100.0%
Ghi chú: Để copy bảng kết quả này vào trang văn bản Word: kích chuột phải chọn Select
All, kích chuột phải lần 2 chọn Copy, sau đó dán (paste) vào trang Word.
Kích chuột vào Frequency chart sẽ cho ra biểu đồ
0
10
20
30
40
50
60
Nhom tuoi
Soluong(n)
1 2 3

18
Để copy biểu đồ: kích chuột phải vào biểu đồ, chọn Copy graph. Sau đó có thể dán (paste)
vào trang Word.
* Bảng phân phối tần số 2 chiều:
Dùng để trình bày sự phân phối của một đặc tính khảo sát liên quan với một đặc tính khác
Yêu cầu thiết kế: gồm hai biến định tính.
Thao tác lệnh:
Statistics
Categorical data
Tùy chọn:
Codes X: chọn biến định tính thứ nhất
Codes Y: chọn biến định tính thứ hai
Ví dụ: Thống kê số bệnh nhân tử vong theo giới
Giới Tử vong
Không Có
Nam 27 18
Nữ 34 11
Tổng 61 29
Thao tác lệnh nhƣ trên, xuất hiện hộp thoại:
Nhấn OK để kết thúc
Codes X tu_vong
Codes Y gioi
Codes X
Codes Y 0 1
1 27 18 45 (50.0%)
2 34 11 45 (50.0%)
61
(67.8%)
29
(32.2%)
90

19
Kích chuôt vào Frequency chart sẽ cho ra biểu đồ
0
5
10
15
20
25
30
35
0= khong; 1= co (tu vong)
Soluong(n)
0 1
gioi
1
2
* Bảng phân phối nhiều chiều
Sử dụng bảng phân phối nhiều chiều để trình bày sự phân phối của một đặc tính khảo sát
liên quan với một đặc tính khác và có xem xét đến sự ảnh hƣởng của một yếu tố thứ 3. Kỹ thuật này
còn đƣợc gọi là phân tích tầng.
Yêu cầu thiết kế: gồm 3 biến định tính.
Thao tác lệnh:
Statistics
Categorical data
Tùy chọn:
Select: chứ . Chọ .
Ví dụ: Tăng huyết áp không những có liên quan với hút thuốc lá mà còn bị ảnh hƣởng của
yếu tố béo phì. Để khảo sát điều này, sử dụng kỹ thuật phân tích tầng.
Lập bảng nhƣ sau:
Béo phì Hút thuốc lá Tăng huyết áp
Có Không
Có Có
Không
Không Có
Không
Đầu tiên chọn beo_phi=1 (nhóm có béo phì)

20
Kết quả sẽ cho bảng 2 chiều giữa hút thuốc lá và tăng huyết áp ở nhóm có béo phì
Sau đó chọn beo_phi=0 (nhóm không béo phì)
Kết quả sẽ cho bảng 2 chiều giữa hút thuốc lá và tăng huyết áp ở nhóm không béo phì
3.2. Thống kê mô tả biến định lƣợng
3.2.1. Một số khái niệm
Biến định lƣợng:
Khi giá trị của đặc tính, sự kiện nghiên cứu đƣợc thu thập bằng một sự đo lƣờng (cân, đong,
đo, đếm). Thí dụ: chiều cao, đƣờng huyết, nhịp tim... của một ngƣời.
- Biến định lƣợng liên tục: Ví dụ: chiều cao, huyết áp, số lƣợng nƣớc tiểu...
- Biến định lƣợng rời rạc: nếu giá trị của đặc tính nghiên cứu chỉ có thể biểu thị bằng những
số nguyên, thƣờng là kết quả của sự đếm. Ví dụ: số con trong gia đình, số lần tái khám.
Ghi chú: nếu biến định lƣợng đƣợc chia thành các nhóm định tính (ví dụ nhóm tuổi, mức độ
tăng huyết áp), việc xử lý số liệu nhƣ một biến định tính.
Phân phối chuẩn:
Khi xử lý số liệu biến định lƣợng trƣớc hết phải xem sự phân phối của biến đó có theo luật
chuẩn hay không, điều này sẽ quyết định việc lựa chọn giá trị đặc trƣng và các test thống kê thích
hợp.

21
Một dãy số đƣợc coi là phân bố chuẩn nếu trung bình cộng, trung vị và mode cùng ở vị trí
chính giữa. Đồ thị biểu diễn phân phối chuẩn có dạng hình chuông úp, đối xứng qua trục x = µ (giá
trị trung bình). 50% giá trị quan sát nằm một bên giá trị trung bình và 50% còn lại nằm phía bên kia.
Chƣơng trình medcalc sẽ kiểm tra tính chuẩn của một biến định lƣợng bằng thủ tục
Summary statistic (xem phần thống kê tóm tắt)
Trung bình hay trung vị:
Trong các tập san nghiên cứu khoa học, chúng ta thƣờng thấy những cột số dƣới hình thức
X±SD: X là trung bình, SD là độ lệch chuẩn. Cách trình bày thông dụng nhƣ thế đến nỗi một số
chuyên gia và các ban biên tập tập san y học phải lên tiếng khuyến cáo.
Theo khuyến cáo chung cũng là qui ƣớc nghiên cứu y học:
- Để mô tả một biến số lâm sàng theo luật phân phối chuẩn: nên trình bày trung bình kèm
độ lệch chuẩn (không phải sai số chuẩn SE).
- Để mô tả một biến số lâm sàng không theo luật phân phối chuẩn: nên trình trung vị
(median) và tứ phân vị (số ở vị trí 25% và 75%)
Nếu một phân phối không theo luật phân phối chuẩn SD có thể lớn hơn X. Một số ngƣời
hiểu nhầm "giá trị trung bình âm" (X-SD < 0), thực chất đây không phải là một phép trừ.
Bách phân vị:
Trong một số nghiên cứu y học thực hiện trên quần thể lớn (quần thể tham chiếu), các đặc
tính định lƣợng thƣờng đƣợc trình bày dƣới dạng bách phân vị. Thƣờng gặp trong các nghiên cứu
xác định chỉ số nhân trắc, các hằng số sinh lý bình thƣờng nhƣ huyết áp, lƣợng nƣớc tiểu...
Vậy bách phân vị là gì?
Để hiểu đƣợc bách phân vị, trƣớc hết chúng ta tìm hiểu đƣờng biểu diễn tần số tƣơng đối
dồn:
+ Đƣợc vẽ từ cột tần số tƣơng đối dồn.
+ Đƣờng biểu diễn tần số tƣơng đối dồn giúp ta tính toán các bách phân vị của một phân
phối. Ta có 99 bách phân vị, từ bách phân vị thứ 1 đến bách phân vị thứ 99.
Bách phân vị thứ n là giá trị mà dƣới giá trị ấy sẽ có n% số trƣờng hợp của tập thể khảo sát.
Giá trị bách phân vị thứ 25 còn đƣợc gọi là tứ phân vị dƣới.
Giá trị bách phân vị thứ 50 chính là trung vị.
Giá trị bách phân vị thứ 75 còn đƣợc gọi là tứ phân vị trên.

22
3.2.2. Thống kê tóm tắt (Summary Statistic)
Thủ tục thống kê tóm tắt dùng để xác định các giá trị đặc trƣng của một biến định lƣợng bao
gồm: trị trung bình, trung vị, độ lệch chuẩn, các giá trị cực tiểu, cực đại, test phân phối (chuẩn hay
không chuẩn), bách phân vị...
Thao tác lệnh:
Statistic
Sumary statistic
Tùy chọn:
Variable: (ví dụ: tuổi)
Test for Normal distribution: test phân phối (xem phân phối có chuẩn hay không): Chi-
square test, Kolmogorov-Smirnov test hoặc D'Agostino Pearson test
More Options: kích vào nút này sẽ mở ra hộp thoại phụ
Tùy chọn:
Percentiles: chọn các bách phân vị
Categorcal variable to identify subgroups: Chọn biến phân nhóm nếu muốn thống kê tóm
tắt theo từng nhóm.
Ví dụ: tính tuổi trung bình theo giới.

23
Variable tuoi (Bảng này thống kê chung)
Sample size (cỡ mẫu chung) 90
Lowest value (giá trị bé nhất) 15.0000
Highest value (giá trị lớn nhất) 92.0000
Arithmetic mean (trung bình) 56.8778
95% CI for the mean 52.4969 to 61.2587
Median (trung vị) 59.0000
95% CI for the median 53.0000 to 62.7724
Variance 437.5017
Standard deviation (độ lệch
chuẩn)
20.9165
D'Agostino-Pearson test
for Normal distribution
accept Normality (P=0.1732) Phân phối
chuẩn
Nếu phân phối không chuẩn sẽ hiển thị:
reject Normality
Percentiles 95% Confidence Interval
25 (tứ phân vị dưới) 40.0000 31.2186 to 47.7780
75 (tứ phân vị trên) 74.0000 67.7407 to 82.7814
Subgroup gioi 1 (bảng này thống kê theo giới nam)
Sample size 45
Lowest value 22.0000
Highest value 92.0000
Arithmetic mean 53.1111
95% CI for the mean 47.5809 to 58.6413
Median 53.0000
Variance 338.8283
Standard deviation 18.4073
25 39.7500 30.3421 to 45.2806
75 67.7500 59.0000 to 76.6579
Subgroup gioi 2 (bảng này thống kê theo giới nữ)
Sample size 45
95% CI for the mean 53.8127 to 67.4762
Median 64.0000
Variance 517.0980

24
25 42.2500 29.6841 to 58.9209
75 83.2500 70.0791 to 86.0000
3.2.3. Vẽ biểu đồ thể hiện trung vị, tứ phân vị, giá trị cực tiểu, cực đại
Ví dụ 1: Tiến hành đo huyết áp 90 bệnh nhân (45 nam, 45 nữ). Vẽ biểu đồ hộp (box-and-
whisker) thể hiện huyết áp tâm thu của toàn bộ 90 bệnh nhân.
Yêu cầu thiết kế: có một biến định lƣợng.
Thao tác lệnh:
Graph
Multiple variables graphs
Tùy chọn:
Variables: chọn biến định lƣợng cần vẽ biểu đồ (HATT)
Graph: chọn kiểu biểu đồ Box-and-whisher
Nhấn OK để kết thúc:
Box-and-whisker
40
60
80
100
120
140
160
180
200
HATT(mmHg)

25
Chú thích biểu đồ:
- Đƣờng ngang giữa hộp: giá trị trung vị (median)
- Cạnh dƣới và trên của hộp: tứ phân vị dƣới (con số ở vị trí 25%) và tứ phân vị trên (con số
ở vị trí 75%)
- Gạch ngang dƣới cùng và trên cùng: giá trị nhỏ nhất và lớn nhất.
Ví dụ 2: Vẽ biểu đồ thể hiện huyết áp tối đa của nam và nữ.
Yêu cầu thiết kế: có một biến định lƣợng (HATT) và một biến định tính (giới)
Thao tác lệnh:
Graph
Multiple comparison graphs
Tùy chọn:
Data: chọn biến định lƣợng cần vẽ biểu đồ (HATT)
Factor codes: chọn biến định tính phân nhóm (giới)
Graphs: chọn kiểu biểu đồ Box-and-whisher
40
60
80
100
120
140
160
180
200
Gioi: 1=nam; 2=nu
HATT(mmHg)
1 2

26
Chƣơng 4
THỐNG KÊ SUY DIỄN
Thống kê suy diễn là phƣơng pháp suy luận thống kê theo kiểu qui nạp. Từ kết quả nghiên
cứu trên một mẫu xác định (thống kê mô tả), suy luận áp dụng cho cả một quần thể lớn.
Ví dụ 1: trở lại ví dụ 100 bệnh nhân sốt xuất huyết vào viện có 20 trƣờng hợp bị sốc (chiếm
tỉ lệ 20%, thống kê mô tả). Bằng phƣơng pháp suy diễn, ta ƣớc lƣợng đƣợc tỉ lệ sốc sốt xuất huyết
trong quần thể dao động từ 12,2 - 30,9% (với độ tin cậy 95%).
Ví dụ 2: đo huyết áp của 85 ngƣời trƣởng thành khỏe mạnh có kết quả: huyết áp tâm thu
trung bình 117 mmHg, độ lệch chuẩn 4 mmHg (đây là phạm vi của thống kê mô tả). Từ đó ƣớc
lƣợng huyết áp tâm thu trung bình của ngƣời trƣởng thành trong quân thể là 113 - 121 mmHg (với
độ tin cậy 95%).
Khi suy diễn từ mẫu nghiên cứu ra quần thể thì không dùng số trung bình (hay tỉ lệ) mà chỉ
nêu từ mức thấp đến mức cao của giới hạn tin cậy 95%.
4.1. Khoảng tin cậy (CI95%)
Khoảng tin cậy đƣợc dùng để mô tả mối quan hệ giữa chỉ số đo lƣờng của mẫu (trung bình,
trung vị, tỉ lệ, OR, RR...) với các chỉ số tƣơng ứng của quần thể nghiên, tức diễn tả giới hạn sai số
chọn mẫu.
Trong y học thƣờng dùng khoảng tin cậy 95% (viết tắt CI95%). Khoảng tin cậy của một số
trung bình (hoặc tỉ lệ) có nghĩa là có 95% hy vọng là giá trị thật của số trung bình (hoặc tỉ lệ) của
quần thể nằm trong khoảng này.
Ví dụ: glucose máu trung bình ở nhóm 76 bệnh nhân là 5,13 mmol/l (CI 95%: 4,76 - 5,50).
Có nghĩa glucose máu trung bình trong quần thể đƣợc ƣớc tính từ 4,76 - 5,50 mmol/l với độ tin cậy
95% (chấp nhận sai số 5%).
4.2. Ƣớc lƣợng khoảng tin cậy 95% cho một tỉ lệ
Thao tác lệnh:
Test
Rates
Confidence Interval for a rate
Tùy chọn:
Numerator: tử số (ví dụ: số trƣờng hợp mắc bệnh).
Denominator: mẫu số (cỡ mẫu).
Ví dụ: ƣớc lƣợng tỉ lệ sốc sốt xuất huyết dựa trên kết quả điều tra mẫu 100 bệnh nhân sốt
xuất huyết nói trên.

27
Kết quả: Incidence rate: tỉ lệ hiện mắc = 20%; 95% CI: tỉ lệ ƣớc lƣợng = 12,217 - 30,888%
(với độ tin cậy 95%).
4.3. Ƣớc lƣợng khoảng tin cậy 95% cho một số trung bình, trung vị
Thao tác lệnh và đọc kết quả: xem phần thống kê tóm tắt
4.4. Vẽ biểu đồ thể hiện giá trị trung bình, trung vị và 95%CI
Ví dụ 1: Trở lại ví dụ vẽ biểu đồ thể hiện huyết áp tâm thu của 90 bệnh nhân đƣợc đề cập
trong phần thống kê mô tả. Ở đây, thống kê suy diễn sẽ diễn tả khoảng tin cậy 95% CI của giá trị
trung bình hoặc trung vị trên biểu đồ.
Thao tác lệnh:
Graph
Multiple variables graph
Tùy chọn:
Variables: chọn biến định lƣợng HATT
Graphs: chọn kiểu biểu đồ Bars:
for means: biểu thị giá trị trung bình
for medians: biểu thị trung vị
Error bars: chọn 95% CI for mean (hoặc for median)

28
Mean (error bars: 95% CI for mean)
0
20
40
60
80
100
120
HATT(mmHg)
Chú thích biểu đồ:
- Cạnh trên của hộp: giá trị trung bình
- Hai đƣờng gạch ngang: khoảng tin cậy 95%CI của giá trị trung bình

29
Chƣơng 5
THỐNG KÊ SO SÁNH
Thống kê so sánh là loại thống kê đƣợc ứng dụng rộng rãi trong y học, nhằm so sánh một
mẫu này với một mẫu hoặc nhiều mẫu khác, so sánh một mẫu nghiên cứu với một chuẩn, nghiên
cứu những mối tƣơng quan giữa các mẫu.
Thống kê so sánh sử dụng các test thống kê tùy theo từng kiểu mô hình nghiên cứu. Việc lựa
chọn các test thống kê phải dựa vào các điều kiện khá chặt chẽ. Phần này sẽ lần lƣợt giới thiệu các
test thống kê thƣờng đƣợc sử dụng trong nghiên cứu y học.
Để lựa chọn một test so sánh thích hợp, phải dựa vào các yếu tố sau:
- Loại biến số khảo sát: định tính hai giá trị, hoặc định danh nhiều giá trị, hoặc định tính có
thứ bậc, hoặc định lƣợng.
- Số nhóm khảo sát:
+ Một nhóm: nhằm so sánh giá trị đặc trƣng của mẫu khảo sát với một giá trị đã có.
+ Nhiều nhóm (≥ 2 nhóm): có hai tình huống sau:
(1) Các nhóm do một biến định tính tạo ra. Ví dụ biến giới phân ra nhóm nam và nữ.
(2) Mỗi nhóm tƣơng ứng với một biến. Ví dụ: để so sánh tỉ lệ nhiễm giun trƣớc và sau khi
dùng thuốc xổ giun, ta lập 2 biến nhiễm giun trước điều trị và nhiễm giun sau điều trị.
- Tính chất của mẫu khảo sát:
+ Mẫu độc lập: Hai hay nhiều mẫu khảo sát độc lập với nhau, giá trị của mỗi cá thể của mẫu
này không có mối liên hệ đặc biệt nào với những cá thể của mẫu khác.
+ Mẫu phụ thuộc: gồm có 2 biến: biến độc lập và biến phụ thuộc
Biến độc lập: Là biến để mô tả hoặc đo lƣờng các yếu tố mà ngƣời nghiên cứu cho rằng nó
là nguyên nhân hoặc là yếu tố ảnh hƣởng đến các vấn đề đang đƣợc nghiên cứu. Biến độ lập là yếu
tố "nhân", biến này không phụ thuộc vào sự biến đổi của yếu tố "quả".
Biến phụ thuộc: là biến đƣợc sử dụng để mô tả hoặc đo lƣờng các vấn đề nghiên cứu.
Ví dụ: Nghiên cứu mối liên quan giữa hút thuốc lá và ung thƣ phổi thì khoảng thời gian hút
thuốc lá và số điều thuốc lá hút mỗi ngày là biến độc lập, trong khi đó ung thƣ phổi là biến phụ
thuộc
Biến độc lập Biến phụ thuộc
"nhân" "quả"
+ Mẫu từng cặp: Hai biến số (định lƣợng, định tính) đƣợc gọi là ghép cặp với nhau nếu mỗi
giá trị của biến thứ nhất liên hệ với một giá trị của biến thứ hai, hình thành một cặp số liệu. Ví dụ: tỉ
lệ nhiễm giun trƣớc và sau uống thuốc xổ giun (biến định tính); huyết áp trƣớc và sau khi uống
thuốc adalat (biến định lƣợng), nhịp tim trƣớc và sau khi thực hiện nghiệm pháp gắng sức...
5.1. Test thống kê so sánh các tỉ lệ
Dùng các test này để khẳng định sự khác biệt giữa các tỉ lệ quan sát đƣợc có ý nghĩa thống
kê hay không (đối với bảng phân phối tần số một chiều) hoặc sự liên quan giữa các đặc tính định
tính có ý nghĩa thống kê hay không (đối với bảng phân phối tần số 2 chiều).
TEST CHI BÌNH PHƢƠNG (χ2
)
Điều kiện: Test χ2
là một test phi tham số rất thông dụng để so sánh 2 hay nhiều tỉ lệ của 2
hay nhiều nhóm độc lập (các nhóm độc lập do một biến định tính phân ra). Điều kiện để có thể sử

30
dụng test là các tần số lý thuyết phải > 4.
Yêu cầu thiết kế: gồm một hoặc hai biến định tính.
Thao tác lệnh:
Statistics
Categorical data
Ví dụ: So sánh tỉ lệ tăng huyết áp ở nhóm có và không có rối loạn lipid máu.
Lập bảng 2 x 2:
Rối loạn lipid Tăng huyết áp
Có Không
Có 114 183
Không 105 338
p = ?
Vấn đề khảo sát là tăng huyết áp trên 2 nhóm đối tƣợng có và không có rối loạn lipid máu.
Hai nhóm này độc lập với nhau do một biến địnhh tính tạo ra. Vì vậy ta sử dụng test χ2
.
Nhập số liệu:
A B C D E
hot_ten RLLP THA DTD
2 Le Thi C 1 1 0
4 Tran Hoang 1 1 1
Thực hiện thao tác lệnh nhƣ trên: chọn biến tăng huyết áp vào Code X và rối loạn lipid máu
vào Code Y.
Codes X THA
Codes Y RLLP

31
Codes X
Codes Y 0 (không) 1 (THA)
0 (không RLLP) 338 105 443 (59.9%)
1 (có RLLP) 183 114 297 (40.1%)
521
(70.4%)
219
(29.6%)
740
Chi-square 17.696
DF 1
Significance level P<0.0001
Contingency coefficient 0.153
Kết quả: χ2
= 17,696; DF: bậc tự do; p < 0,0001. Nhƣ vậy có sự liên quan giữa rối loạn lipid
máu với tăng huyết áp.
Ghi chú: Khi có một hay nhiều tần số lý thuyết ≤ 4 (và >2), ta phải dùng test χ2
có hiệu
chỉnh Yates (phần mềm medcalc sẽ tự động hiệu chỉnh theo Yates), hay test chính sác Fisher (khi
các tần số lý thuyết ≤ 4, kể cả khi < 2 hay bằng 0)
TEST CHÍNH XÁC FISHER
Yêu cầu thiết kế: gồm hai biến định tính là biến nhị phân.
Thao tác lệnh:
Statistics
Categorical data
Fisher's exact
Tùy chọn:
Classification X: chọn biến định tính thứ nhất
Classification Y: chọn biến định tính thứ hai
TEST MC NEMAR
Điều kiện: Hai nhóm khảo sát có quan hệ cặp đôi với nhau.
Yêu cầu thiết kế: gồm 2 biến định tính là biến nhị phân và có mối quan hệ bắt cặp với nhau.
Thao tác lệnh:
Statistics

32
Categorical data
Mcnemar test
Tùy chọn:
Classification X: chọn biến định tính thứ nhất
Classification Y: chọn biến định tính thứ hai
Nhập số liệu:
A B C
hot_ten Xuat_huyet_truoc_DT Xuat_huyet_sau_DT
1 Nguyen Van A 0 0
2 Le Thi C 1 1
3 Tran Van Nguyen 1 0
4 Tran Hoang 1 1
Hai nhóm xuất huyết trước điều trị và xuất huyết sau điều trị có quan hệ cặp đôi với nhau.
Vì vậy sử dụng test Mc Nemar để kiểm định sự khác biệt giữa 2 tỉ lệ đó.
Thực hiện các thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau:
Classification A Xuat_huyet_truoc_DT
Classification B Xuat_huyet_sau_DT
Classification A
Classification B 0 1
0 10 2 12 (36.4%)
1 11 12 21 (63.6%)
21
(63.6%)
12
(36.4%)
33
Exact probability (biomial distribution)
Significance P=0.0225
Kết quả: p = 0,0225. Nhƣ vậy có sự khác biệt về tỉ lệ xuất huyết trong bệnh leucemie trƣớc
và sau điều trị.

33
Bảng 5.1. Lựa chọn test thống kê so sánh các tỉ lệ
Số nhóm
khảo sát
Số giá trị của
biến khảo sát
Tính chất nhóm
khảo sát
Tính chất phân
phối
Test so sánh
1 k χ2
(1 mẫu)
2 2
Độc lập
TSLT≥4 χ2
2 TSLT<4 Chính xác Fisher
2 k (định danh) TSLT≥4 χ2
k (định danh) TSLT<4 Dồn lớp (giảm k) để có
TSLT ≥4
k (định
danh)
k (định danh) TSLT≥4 χ2
k (định danh) TSLT<4 Dồn lớp (giảm k) để có
TSLT ≥4
2 k (thứ tự) χ2
k (thứ tự
hay định
danh)
k (thứ tự) Gamma,
Kendall's tau-b
Kendall's tau-c
2 2 Từng cặp Mc Nemar
5.2. Test khảo sát mức độ liên quan giữa các biến định tính
Các test χ2
, Fisher, Mc Nemar chỉ cho biết có hay không sự liên quan giữa các biến định tính
mà không thể hiện đƣợc mức độ (hay độ mạnh) của mối liên quan đó. Để diễn tả mức độ mạnh của
các mối liên quan ta sử dụng tỉ suất chênh (OR) và nguy cơ tƣơng đối (RR).
TỈ SUẤT CHÊNH (OR)
Tỉ suất chênh (Odd ratio) đo lƣờng mối liên quan giữa 2 biến nhị phân có cân nhắc tới mức
độ mạnh yếu của mối liên quan đó. Trong nghiên cứu sinh y học, tỉ suất chênh cũng dùng để đánh
giá mối liên quan giữa yếu tố phơi nhiễm và bệnh.
Tỉ suất chênh sử dụng cho nghiên cứu bệnh chứng, nghiên cứu cắt ngang sử dụng tỉ lệ
hiện mắc.
Yêu cầu thiết kế: đƣợc tính trực tiếp từ bảng 2 x 2.
Phơi nhiễm Bệnh
(+) (-)
(+) 45 16
(-) 23 37
Chú ý thứ tự giá trị dƣơng tính (+): cột - trƣớc, hàng - trên
Thao tác lệnh:
Test
Odd ratio
Lần lƣợt nhập các giá trị vào bảng

34
Nhấn nút Test để kết thúc (hoặc Enter).
Kết quả: OR=4,52, có nghĩa là ở nhóm phơi nhiễm với yếu tố nguy cơ, tỉ lệ bệnh cao gấp
4,52 lần so với nhóm không phơi nhiễm, sự chênh lệch là đáng tin cậy (p<0,01).
Ghi chú: nếu p >0,05 sự liên quan không có ý nghĩa thống kê (dù OR lớn hay nhỏ).
NGUY CƠ TƢƠNG ĐỐI (RR)
Nguy cơ tƣơng đối (Relative Risk) đo lƣờng mối liên quan giữa 2 biến nhị phân có cân nhắc
tới mức độ mạnh yếu của mối liên quan đó. Trong nghiên cứu sinh y học, RR đƣợc dùng để đánh
giá độ mạnh của mối liên quan giữa yếu tố phơi nhiễm và bệnh. Nó nói lên khả năng phát triển bệnh
ở nhóm có phơi nhiễm so với nhóm không phơi nhiễm với yếu tố nguy cơ
Sử dụng cho nghiên cứu thuần tập (nghiên cứu tƣơng lai)
Yêu cầu thiết kế: đƣợc tính trực tiếp từ bảng 2 x 2
Ví dụ: Theo dõi bệnh mạch vành ở hai nhóm ngƣời: nhóm hút thuốc lá và nhóm không hút
thuốc lá. Theo dõi liên tục trong 3 năm, thu đƣợc kết quả nhƣ sau.
Hút thuốc lá BMV
(+) (-)
(+) 100 55
(-) 900 945
Thao tác lệnh:
Test
Relative risk
Lần lƣợt nhập các số vào các ô tƣơng ứng

35
Nhấn nút Test để kết thúc (hoặc Enter)
Kết quả: Tỉ số nguy cơ RR=1,82, có nghĩa nguy cơ bệnh mạch vành ở nhóm hút thuốc lá
cao gấp 1,82 lần so với nhóm không hút thuốc lá. Sự khác biệt có ý nghĩa thống kê (p=0,0002).
Ghi chú: nếu p >0,05 sự liên quan không có ý nghĩa thống kê (dù RR lớn hay nhỏ).
Bảng 5.2. Diễn giải ý nghĩa của OR và RR
OR Diễn giải RR Diễn giải
OR>1 Khả năng mắc bệnh cao hơn khả
năng không mắc bệnh
RR>1 Yếu tố phơi nhiễm làm tăng khả năng
mắc bệnh
OR=1 Khả năng mắc bệnh bằng khả năng
không mắc bệnh
RR=1 Không có mối liên hệ nào giữa yếu tố
phơi nhiễm và khả năng mắc bệnh
OR<1 Khả năng mắc bệnh thấp hơn khả
năng không mắc bệnh
RR<1 Yếu tố phơi nhiễm làm giảm khả
năng mắc bệnh
5.3. Test khảo sát độ phù hợp, độ chính xác
ĐỘ PHÙ HỢP KAPPA
Áp dụng: xác định mức độ phù hợp giữa lâm sàng và xét nghiệm, độ phù hợp giữa 2 kỹ
thuật chẩn đoán khác nhau (siêu âm, chụp cắt lớp vi tính), sự đồng thuận của 2 bác sĩ về chẩn đoán
một bệnh nào đó (ví dụ cùng chẩn đoán về điện não hoặc điện tim hoặc X-quang trên một số bệnh
nhân).
Yêu cầu của thiết kế: Cần phân rõ hai đối tƣợng A và B (hai cán bộ hoặc 2 phƣơng pháp
khác nhau cần đối chiếu) và 2 dạng thức: có bệnh hoặc không bệnh, bệnh nặng hoặc bệnh nhẹ...
Không yêu cầu cần phải có tiêu chuẩn vàng.
Xác định mức độ phù hợp:
Kappa: Độ phù hợp:
< 0.20 Rất ít
0.21 - 0.40 Nhẹ
0.41 - 0.60 Trung bình
0.61 - 0.80 Chặt chẽ

36
0.81 - 1.00 Hầu nhƣ hoàn toàn
Ví dụ: Khảo sát mức độ phù hợp giữa chẩn đoán lâm sàng và siêu âm ruột thừa viêm.
Siêu âm Chẩn đoán lâm sàng
(+) (-)
(+)
(-)
Kappa=?
Nhập số liệu:
A B C
hot_ten ChandoanLS sieuam
1 Nguyen Van A 0 0
2 Le Thi C 1 1
4 Tran Hoang 1 1
(Mã hóa: 0=âm tính; 1=dương tính)
Ghi chú: các giá trị mã hóa của 2 biến tính phải giống nhau. Chẳng hạn biến thứ nhất mã
hóa: 1, 2, 3 thì biến thứ hai cũng phải mã hóa: 1, 2, 3 (mã hóa nhƣ sau sẽ không sẽ cho kết quả sai:
0, 1, 2 hoặc 1, 2, 3, 4)
Thao tác lệnh:
Statistic
Method comparision
Inter-rater agreement (kappa)
Tùy chọn:
Data for observer A: Chọn biến định tính thứ nhất
Data for observer B: Chọn biến định tính thứ hai
Weighted Kappa: chọn test Kappa
Áp dụng cho ví dụ trên, xuất hiện hộp thoại sau:
Observer A chandoanLS

37
Observer B sieuam
Observer A
Observer B + -
+ 5 2 7 (50.0%)
- 1 6 7 (50.0%)
6
(42.9%)
8
(57.1%)
14
Weighted Kappa 0.571
Kết quả: Kappa=0,571, có nghĩa chẩn đoán ruột thừa viêm bằng lâm sàng và siêu âm có
mức độ phù hợp trung bình.
ĐỘ
Yêu cầu của thiết kế:
- Phải có 2 nhóm: nhóm có bệnh và nhóm không có bệnh.
- Phải có tiêu chuẩn vàng: nghĩa là phải có tiêu chuẩn chính xác về bệnh và không bệnh.
Đƣợc tính trực tiếp từ bảng 2 x 2.
Ví dụ: Tính độ nhạy, độ đặc hiệu, giá trị chẩn đoán dƣơng tính - âm tính của siêu âm ruột
thừa viêm (đối chiếu với giải phẫu bệnh).
Siêu âm Giải phẫu bệnh
(+) (-)
(+) 29 7
(-) 3 53
Thao tác lệnh:
Test
Diagnostic test (2 x 2 table)
Lần lƣợt nhập các số vào trong các ô tƣơng ứng.

38
Nhấn nút Test để kết thúc (hoặc nhấn Enter)
Kết quả:
Độ nhạy 90.62%
Độ đặc hiệu 88.33%
Giá trị chẩn đoán dƣơng tính 80.56%
Giá trị chẩn đoán âm tính 94.64%
5.4. Test so sánh các giá trị trung bình
So sánh các giá trị trung bình để tìm ra sự khác biệt, sự liên quan có ý nghĩa thống kê giữa
các giá trị trung bình đó.
TEST ANOVA MỘT CHIỀU
Test ANOVA một chiều đƣợc dùng để so sánh 2 hay nhiều số trung bình của các nhóm độc
lập (các nhóm độc lập do một biến định tính tạo ra).
Điều kiện: (1) Các nhóm định lƣợng phân phối theo luật chuẩn; và (2) có sự đồng nhất
phƣơng sai của các nhóm.
Yêu cầu thiết kế: Gồm một biến định lƣợng và một biến định tính để phân nhóm.
Thao tác lệnh:
Statistic
ANOVA
One-way analysis of variance
Tùy chọn:
Data: chọn biến định lƣợng
Factor codes: chọn biến định phân nhóm
Ví dụ: So sánh số lƣợng tiểu cầu trung bình của nam và nữ trong bệnh leucemie cấp.
Nhập số liệu:
A B C
hot_ten gioi so_luong_TC
1 Nguyen Van A 0 43,1
2 Le Thi C 1 36,7
3 Tran Van Nguyen 1 50,4
4 Tran Hoang 1 37,3
Giả sử số lượng tiểu cầu theo giới phân phối theo luật chuẩn.

39
Levene's Test for Equality of Variances
Levene statistic 0.107
DF 1 1
DF 2 88
Significance level P = 0.745
ANOVA
Source of variation Sum of squares DF Mean square
Between groups
(influence factor)
0.002778 1 0.002778
Within groups
(other fluctuations)
44.3884 88 0.5044
Total 44.3912 89
F-ratio 0.00551
Significance level P = 0.941
Factor n Mean (trung bình)
(1) 1=nam 45 40.44
(2) 2=nữ 45 49.11
Kết quả:
Bảng Levene's Test for Equality of Variances: so sánh phƣơng sai của 2 nhóm. Nếu
p>0,05, kết luận có sự đồng nhất phƣơng sai của 2 nhóm. Đây là một điều kiện để có thể thực hiện
test ANOVA (cùng với điều kiện phân phối chuẩn). Nếu p<0,05 hoặc p<0,01, tức không có sự đồng
nhất phƣơng sai của 2 nhóm, khi đó không thực hiện đƣợc test ANOVA mà phải dùng test Kruskal
- Walis.
Bảng ANOVA: Giá trị của test ANOVA (F-ratio) = 0,00551; p=0,941. Kết luận sự khác biệt
số lƣợng tiểu cầu trung bình giữa nam và nữ mắc bệnh leucemie không có ý nghĩa thống kê.
Bảng cuối cùng: thể hiện giá trị tiểu cầu trung bình của nam và nữ.
Nếu sự khác biệt có ý nghĩa, dùng test Student - Newman - Keuls để tìm sự khác biệt của
từng cặp nhóm (trong tình huống > 2 nhóm).

40
Ví dụ:
Student-Newman-Keuls test for all pairwise comparisons
Factor n Mean Different (P<0.05)
from factor nr
(1) 1 47 10.0877 (3)
(2) 2 18 25.3030
(3) 3 25 35.3187 (1)
Kết quả: có sự khác biệt có ý nghĩa giữa (1) với (3), không có sự khác biệt khi so sánh (2)
với (1), (2) với (3)
Kích vào Multiple comparison graph sẽ cho ra biểu đồ.
TEST T
* Test t đối với một mẫu
Ứng dụng: So sánh giá trị trung bình của mẫu với một kỳ vọng lý thuyết
Điều kiện: biến định lƣợng phân phối theo luật chuẩn.
Thao tác lệnh:
Statistic
T-test
One sample T-test
Tùy chọn:
Variable: Chọn biến định lƣợng cần khảo sát
Test value: Nhập giá trị trung bình kỳ vọng lý thuyết.
Ví dụ: Số lƣợng tiểu cầu trung bình ở ngƣời trƣởng thành là 150 (x 109
/l). Hãy so sánh số
lƣợng tiểu cầu trung bình ở bệnh nhân leucemie với số lƣợng tiểu cầu trung bình ở ngƣời trƣờng
thành để xem trong bệnh leucemie có hiện tƣợng giảm số lƣợng tiểu cầu hay không.
Thao tác nhƣ trên:

41
Variable So_luong_TC
Sample size 90
95% CI for the mean 52.4969 to 61.2587
Median 59.0000
Variance 437.5017
Standard error of the mean 2.2048
One sample t-test
Test value 150
Difference -93.1222
95% CI -97.5031 to -88.7413
Degrees of Freedom (DF) 89
Test statistic t 42.23619
Significance level P < 0.0001
Kết quả: Số lƣợng tiểu cầu trung bình ở bệnh nhân leucemie là 56,87 (x 109
). Test t =
14,05689, p<0,001. Kết luận: có sự khác biệt giữa số lƣợng tiểu cầu trung bình ở bệnh nhân
leucemie và ở ngƣời trƣờng thành.
Kích chuột vào Box - and - Whisker plot sẽ cho ra biểu đồ
* Test t đối với 2 biến độc lập
Ứng dụng: So sánh 2 giá trị trung bình của 2 biến độc lập.
Điều kiện: (1) hai biến định lƣợng phân phối theo luật chuẩn; và (2) có sự đồng nhất phƣơng
sai giữa hai biến.
Yêu cầu thiết kế: gồm hai biến định lƣợng độc lập với nhau. Khác với test ANOVA gồm
một biến định lƣợng và một biến định tính, các nhóm độc lập do một biến định tính tạo ra.
Thao tác lệnh:
Statistic
T-tests
Independent Sample t test
Tùy chọn:
Sample 1/ Variable 1: chọn biến định lƣợng thứ nhất
Sample 2/ Variable 2: chọn biến định lƣợng thứ hai
Ví dụ: So sánh huyết áp tâm thu trung bình của với .
Nhập số liệu:

42
A B C
HA_benh HA_chung
1 156 123
2 162 127
3 154 116
4 158 134
162 124
Hai nhóm HA bệnh và HA chứng độc lập với nhau, giả sử phân phối theo luật chuẩn. Áp
dụng test t đối với hai biến độc lập.
Sample 1
Variable HA_benh
Sample 2
Variable HA_chung
Sample 1 Sample 2
Sample size 90 90
Arithmetic mean 147.8000 121.0000
95% CI for the mean 102.1486 to 113.4514 92.7144 to 139.2856
Variance 728.0494 246.0899
Standard deviation 26.9824 15.6873
Standard error of the mean 2.8442 1.6536
F-test for equal variances P > 0.05
T-test (assuming equal variance)
Difference -41.8000
Standard Error 3.2899
95% CI of difference -48.2923 to -35.3077
Test statistic t -12.705
Two-tailed probability P < 0.0001
Chú thích kết quả:

43
- F test for equal variances: test kiểm định sự đồng nhất phƣơng sai của hai nhóm (p>0,05:
đồng nhất, p<0,05 hoặc <0,01: không đồng nhất). Trƣờng hợp này có sự đồng nhất phƣơng sai của
hai nhóm (p>0,05), vì vậy sử dụng đƣợc test t đối với hai nhóm độc lập.
- Test t: kết quả -12,705, p<0,01. Kết luận: có sự khác biệt huyết áp tâm thu trung bình giữa
nhóm bệnh và nhóm chứng.
Ghi chú: nếu bảng số liệu đƣợc thiết kế lại nhƣ sau:
A B C
hot_ten HA Nhom_NC
1 Nguyen Van A 156 1
2 Le Thi C 132 2
4 Tran Hoang 127 2
(nhóm NC: 1=bệnh; 2= chứng)
Trong tình huống này, hai nhóm bệnh và chứng do một biến định tính tạo ra, nên đƣợc so
sánh bằng test ANOVA 1 chiều:
* Test t ghép cặp
Ứng dụng: so sánh giá trị trung bình của 2 biến có quan hệ ghép cặp.
Điều kiện: hai biến phân phối theo luật chuẩn
Thao tác lệnh:
Statistic
T-tests
Pared samples t - test
Tùy chọn:
Sample 1: Chọn biến định lƣợng thứ nhất
Sample 2: Chọn biến định lƣợng thứ hai
Ví dụ: So sánh số lƣợng tiểu cầu trung bình ở bệnh nhân leucemie trƣớc và sau điều trị.
Nhập số liệu:

44
A B C
hot_ten SLTC_truocDT SLTC_sauDT
1 Nguyen Van A 46,7 29,4
2 Le Thi C 37,5 25,6
3 Tran Van Nguyen 41,3 26,9
4 Tran Hoang 43,6 27,1
Hai biến số lượng tiểu cầu trước điều trị và số lượng tiểu cầu sau điều trị có quan hệ ghép
cặp với nhau, giả sử phân phối theo luật chuẩn. Nhƣ vậy đủ điều kiện để áp dụng test t ghép đôi.
Thao tác nhƣ trên, xuất hiện hộp thoại sau:
Sample 1 Sample 2
Sample size 33 33
Arithmetic mean 45.1515 21.9394
95% CI for the mean 29.9583 to 60.3447 14.9190 to 28.9598
Paired samples t-test
Mean difference -23.2121
95% CI -38.5101 to -7.9141
Test statistic t -3.091
Two-tailed probability P = 0.0041
Kết quả: test t = -3,091, p=0,0041. Kết luận: có sự khác biệt về số lƣợng tiểu cầu trung bình
trƣớc và sau điều trị.
Kích chuột vào Dot-and-Line diagram sẽ cho ra biểu đồ.
5.6. Test phi tham số so sánh hai hay nhiều số trung bình
Các test để so sánh hai hay nhiều số trung bình đƣợc dùng trên đây là những test tham số
(trong công thức tính toán của test có sử dụng các tham số thống kê nhƣ trung bình, độ lệch
chuẩn...). Đó là những test mạnh, thông dụng, nhƣng đòi hỏi phải thỏa mãn hai điều kiện thiết yếu:
các mẫu khảo sát phải có phân phối chuẩn và sự khác biệt giữa các phƣơng sai không có ý nghĩa.
Do đó, trong những trƣờng hợp các mẫu khảo sát không thỏa đƣợc hai điều kiện của test tham số,
nhất là những trƣờng hợp mẫu nhỏ hay quá nhỏ, ta phải sử dụng các test không dựa vào hình thái

45
phân phối, gọi là test phi tham số.
SIGN RANK SUM TEST
Test này thay thế cho test t đối với một mẫu (one sample t test) khi muốn so sánh giá trị
trung bình của một biến khảo sát với một kỳ vọng lý thuyết.
Thao tác lệnh:
Statistics
Rank sum tests
Signed rank sum test
Tùy chọn:
Variable: chọn biến định lƣợng cần khảo sát
Test value: số trung bình kỳ vọng lý thuyết
TEST MANN WHITNEY
Dùng để so sánh hai số trung bình của hai mẫu khảo sát độc lập khi không đủ điều kiện để
thực hiện test t đối với 2 biến độc lập (independent sample t test).
Yêu cầu thiết kế: Hai biến định lƣợng nằm trên hai cột của bảng số liệu và quan hệ độc lập
với nhau.
Thao tác lệnh:
Statistics
Rank sum tests
Mann-Whitney test (independent samples)
Tùy chọn:
Sample 1/ Variable: chọn biến định lƣợng thứ nhất
Sample 2/ Variable: chọn biến định lƣợng thứ hai

46
TEST WILCOXON
Để so sánh hai số trung bình trƣờng hợp số liệu từng cặp khi không đủ điều kiện thực hiện
test t đối với 2 biến ghép cặp (pared samples t test).
Yêu cầu thiết kế: Hai biến định lƣợng nằm trên hai cột của bảng số liệu và quan hệ cặp đôi
với nhau.
Thao tác lệnh:
Statistics
Rank sum tests
Wilcoxon test (paired samples)
Tùy chọn:
Sample 1: chọn biến định lƣợng thứ nhất
Sample 2: chọn biến định lƣợng thứ hai.
TEST KRUSKALL - WALLIS
Để so sánh hai hay nhiều số trung bình của nhiều mẫu khảo sát độc lập khi không đủ điều
kiện để sử dụng test ANOVA một chiều.
Yêu cầu thiết kế: gồm một biến định lƣợng cần khảo sát và một biến định tính để phân ra
các nhóm độc lập.
Thao tác lệnh:
Statistics
Anova
Kruskal-Wallis test
Tùy chọn:
Data: chọn biến định lƣợng cần khảo sát
Factor codes: chọn biến định tính phân nhóm.

47
Bảng 5.3. Các test so sánh các số trung bình
Số nhóm
khảo sát
Tính chất nhóm
khảo sát
Tính chất phân phối Test so sánh
1 Chuẩn (mẫu lớn) t (1 mẫu)
1 Không chuẩn Sign rank sum test
2 Độc lập Chuẩn và đồng nhất t test (độc lập)
2 Không chuẩn, không
đồng nhất
Mann Whitney
2 Từng cặp d (=xA-xB) chuẩn t test (từng cặp)
2 d (=xA-xB) không chuẩn Wilcoxon
≥ 2 Độc lập
Phân nhóm theo 1
biến
Chuẩn và đồng nhất ANOVA
Nếu sự khác biệt có ý nghĩa, dùng
test Student-Newman-Keuls để tìm
sự khác biệt của từng cặp nhóm
≥ 2 Độc lập
Phân nhóm theo 1
biến
Không chuẩn và không
đồng nhất
Kruskal - Walis

48
Chƣơng 6
TƢƠNG QUAN VÀ HỒI QUI
Trong nghiên cứu chúng ta có thể gặp những trƣờng hợp có mối liên quan rõ rệt theo những
chiều hƣớng nhất định giữa các sự kiện. Ví dụ: khi mức dinh dƣỡng kém trẻ em bị còi xƣơng, ở
vùng thiếu iod trong thức ăn nƣớc uống, nhân dân sẽ có nhiều ngƣời bị bệnh bƣớu cổ, tuổi của vận
động viên càng cao thể lực càng giảm sút... đó là những mối tƣơng quan. Trong y học ít có những
tƣơng quan tuyệt đối, mà chỉ tƣơng quan với nhau trong một chứng mực nhất định vì cơ thể con
ngƣời, điều kiện sống môi trƣờng... luôn luôn biến động.
6.1. Hệ số tƣơng quan r (tƣơng quan Pearson)
Sử dụng hệ số tƣơng quan để xem xét mối tƣơng quan tuyến tính giữa hai biến định lƣợng
không cân nhắc tới yếu tố nhân quả.
Xác định mức độ tƣơng quan dựa vào hệ số r:
|r| > 0,8 tƣơng quan mạnh
|r| = 0,4 - 0,8 tƣơng quan trung bình
|r| < 0,4 tƣơng quan yếu
|r| càng lớn thì tƣơng quan giữa X và Y càng chặt
0 < r ≤ 1: gọi là tƣơng quan tuyến tính thuận (X↑, Y↑)
-1 ≤ r ≤ 0: gọi là tƣơng quan tuyến tính nghịch (X↑, Y↓)
Điều kiện: hai biến định lƣợng phân phối theo luật chuẩn.
Thao tác lệnh:
Statistic
Relation
Relation Coefficent
Tùy chọn:
Variable Y: Chọn biến định lƣợng thứ nhất
Variable X: Chọn biến định lƣợng thứ hai.
Ví dụ: Phân tích mối tƣơng quan giữa áp lực động mạch phổi và kích thƣớc lỗ thông trong
bệnh thông liên thất.

49
Variable Y ALDMP
Variable X KT_lothong
Sample size 399
Correlation coefficient r 0,6978
Significance level P<0,0001
95% Confidence interval for r 0,6438 to 0,7450
Kết quả: hệ số tƣơng quan r=0,6978 (tƣơng quan trung bình, có ý nghĩa thống kê p<0,0001).
Ghi chú: nếu p > 0,05 sự tƣơng quan không có ý nghĩa thống kê (dù r lớn hay nhỏ).
Kích vào Scatter diagram sẽ cho biểu đồ tƣơng quan (biểu đồ chấm)
6.2. Tƣơng quan hạng Spearman rs
Khi phân phối các giá trị x và y không thỏa các điều kiện qui định để tính hệ số tƣơng quan
r, nhất là khi mẫu khảo sát quá nhỏ, ta phải dùng test phi tham số Spearman. Hệ số r tính đƣợc từ
test Spearman gọi là hệ số tƣơng quan hạng rs.
Trong trƣờng hợp có tƣơng quan tuyến tính, r và rs gần nhƣ giống nhau, nhƣng trong tƣơng
quan không tuyến tính r và rs khác nhau nhiều.
Trong thực hành, ta chỉ tính r hoặc rs. Do đó, trƣớc khi tính toán, phải dựa vào đồ thị phân
tán để quyết định tính r hay rs. Nếu đồ thị phân tán nghĩ đến một tƣơng quan tuyến tính, ta sẽ tính r.
Nếu đồ thì phân tán cho thấy có thể có một tƣơng quan không tuyến tính, ta sẽ tính rs. Chú ý: khi hệ
số tƣơng quan r không có ý nghĩa, ta chỉ kết luận là không có tƣơng quan tuyến tính mà thôi; cũng
có thể giữa hai đặc tính có tƣơng quan không tuyến tính.
Đánh giá mức độ tƣơng quan dựa vào hệ số rs cũng giống nhƣ hệ số tƣơng quan r.
Yêu cầu thiết kế: Hai biến số đƣa vào khảo sát là biến định lƣợng hoặc biến định tính có thứ
hạng.
Thao tác lệnh:
Statistics
Correlation
Rank correlation
Tùy chọn:
Variable Y: chọn biến phụ thuộc
Variable X: chọn biến độc lập
Spearman's rho: mặc định chọn test Spearman
Ví dụ: Một cán bộ y tế theo dõi tình hình bệnh nhân sốt xuất huyết, nhận thấy có mối liên
quan giữa số lƣợng tiểu cầu và mức độ xuất huyết (độ 1, độ 2, độ 3, độ 4).

50
Variable Y so_luong_TC
Variable X muc_do_XH
Sample size 90
Spearman's coefficient of rank correlation (rho) 0.465
Significance level P<0.0001
95% Confidence Interval for rho 0.285 to 0.613
Kết quả: rs = 0,465, p<0,01. Kết luận: có sự tƣơng quan mức độ vừa giữa số lƣợng tiểu cầu
và mức độ xuất huyết.
6.3. Phân tích hồi qui
Khi hai biến số liên quan phụ thuộc lẫn nhau thì biến số này thay đổi biến số kia sẽ thay đổi
theo. Nếu ta gọi y là biến số phụ thuộc và x là biến số độc lập thì mối liên quan này đƣợc gọi là hồi
qui (regression) của y đối với x và sẽ đƣợc thể hiện bằng một phƣơng trình hồi qui (regression
equation).
Phƣơng trình hồi qui tuyến tính có dạng nhƣ sau:
y = a + bx.
Trong đó: a là hằng số (constant) hoặc còn gọi là intercept.
b là hệ số (coefficient)
y là biến số phụ thuộc
x là biến số độc lập
Trên cơ sở phƣơng trình trên, ta có thể từ một điểm x bất kỳ tính ra đƣợc y tƣơng ứng (sai số
5%).
Điều kiện: Hai biến định lƣợng phân phối theo luật chuẩn.
Thao tác lệnh:
Statistic
Regression
Regression
Tùy chọn:
Variable Y: Chọn biến định lƣợng phụ thuộc

51
Variable X: Chọn biến định lƣợng độc lập
Regression equation: Chọn phƣơng trình Y = a + bX. Những dạng phƣơng trình khác ít
dùng nên không giới thiệu ở đây.
Kết quả cho ra hệ số R2
(tức bình phƣơng hệ số tƣơng quan r), phƣơng trình hồi qui.
Ví dụ: Xác định phƣơng trình hồi qui thể hiện mối tƣơng quan tuổi thai và mức độ tăng cân
của bà mẹ trong thai kỳ.
Dependent Y muc_do_tang_can_me
Independent X tuoi_thai
Sample size 90
Coefficient of determination R
2
0.06758
Residual standard deviation 8337.6716
Regression Equation
y = 139336.0776 + -3160.2925 x
Parameter Coefficient Std. Error 95% CI t P
Intercept 139336.0776 48455.2363 43041.4777 to 235630.6775 2.8756 0.0051
Slope -3160.2925 1251.4002 -5647.1875 to -673.3974 -2.5254 0.0133
Analysis of Variance
Source DF Sum of Squares Mean Square
Regression 1 443355040.1 443355040.1
Residual 88 6117475608.8 69516768.3
F-ratio 6.4
Significance level P=0.013
Kết quả: hệ số R2
= 0,0675, phƣơng trình hồi qui y = 139336,0776 +
-3160,2925x, p=0,0051.
Để vẽ biểu đồ tƣơng quan, kích chuột vào Scatter diagram with regression line

52
Chƣơng 7
PHÂN TÍCH ĐA BIẾN
7.1. Hồi qui tuyến tính đa biến
Kỹ thuật phân tích hồi qui đa biến thƣờng đƣợc dùng để khảo sát sự tƣơng quan giữa một
biến phụ thuộc là biến định lƣợng với nhiều biến số độc lập thƣờng cũng là biến định lƣợng, nhằm
xác định phƣơng trình hồi qui tuyến tính và giá trị tiên đoán của biến số phụ thuộc theo giá trị của
các biến số độc lập.
Phƣơng trình hội qui tuyến tính có dạng:
y = a + b1x1 + b2x2 +...+ bnxn.
Thao tác lệnh:
Statistic
Regression
Multiple regression
Tùy chọn:
Depentdent variable: chọn biến phụ thuộc
Indepentdent variable: chọn các biến độc lập
Ví dụ: Một nghiên cứu về lƣợng oxy trong máu của 31 cá thể sau một thời gian chạy, hai
biến độc lập khác cũng đƣợc xem xét vì nghi ngờ có liên quan là cân nặng và tuổi của cá thể.
Biến phụ thuộc: lƣợng oxy trong máu
Biến độc lập: thời gian chạy, câng nặng, tuổi
Sample size 90
R
2
-adjusted 0.2341
Regression Equation

53
Independent variables Coefficient Std. Error t P
(Constant) 2.9399
thoi_gian_chay 0.1240 0.03136 3.952 0.0002
can_nang 0.2659 0.0003352 0.793 0.0498
tuoi 0.3939 0.002301 3.885 0.0002
Zero order correlation coefficients
Variable r
thoi_gian_chay 0.359
can_nang 0.374
tuoi 0.351
Kết quả: Ở bảng Regression Equation cho thấy hệ số hồi qui từng phần (cột Coefficient) và
giá trị p của lần lƣợt các yếu tố đối với oxy máu. Nhƣ vậy có sự tƣơng quan giữa thời gian chạy,
cân nặng và tuổi đối với lƣợng oxy máu xét trong mối quan hệ đa yếu tố (p<0,05).
Bảng Zero order correlation coefficients thể hiện hệ số tƣơng quan r của từng yếu tố riêng
biệt đối với lƣợng oxy máu xét trong từng mối tƣơng quan riêng biệt.
Ngoài ra kết quả còn cho giá trị hệ số xác định (R2
- adjusted). Hệ số này cho phép ta ƣớc
đoán đƣợc bao nhiêu phần trăm của y là do hậu quả biến đổi của các biến số x1, x2, x3..., xi. Trong ví
dụ trên, ta có R2
=0,2341, có nghĩa là 23,41% sự biến đổi của oxy máu đƣợc qui thuộc là do sự biến
đổi của thời gian chạy, cân nặng và tuổi.
7.2. Hồi qui logistic
Hồi qui logicstic là kỹ thuật phân tích đa biến dùng để khảo sát tƣơng quan giữa một biến số
định tính y có 2 giá trị nhƣ tình trạng có bệnh hoặc không có bệnh, với một hay nhiều biến số độc
lập xi. Các biến số độc lập xi thƣờng là biến định tính nhị phân nhƣng cũng có thể là biến số định
tính có nhiều giá trị (định danh, thứ tự) hoặc là biến định lƣợng.
Sử dụng hồi qui logistic nhằm thiết lập một mô hình toán học cho phép vừa tính đƣợc mức
độ tƣơng quan giữa bệnh với yếu tố nguy cơ, cùng lúc kiểm soát dƣợc các yếu tố gây nhầm lẫn,
cũng nhƣ phát hiện đƣợc các yếu tố thay đổi hiệu quả tƣơng quan, nếu kỹ thuật phân tích theo lớp
(bảng phân phối tần số nhiều chiều) sẽ không đủ mạnh để có thể có đƣợc một kết luận có ý nghĩa
thống kê.
Phƣơng trình hồi qui logistic cũng tƣơng tự phƣơng trình hồi qui đa biến tuyến tính, nhƣng
thay vì tính y, ngƣời ta tính logit(p)
Logit(p) = a + b1x1 + b2x2 +...+ bnxn
Trƣờng hợp biến số xi là những yếu tố ảnh hƣởng (yếu tố nguy cơ hay yếu tố bảo vệ) đối với
biến phụ thuộc y (là tình trạng mắc bệnh, tử vong hay tai nạn...), sử dụng hồi qui logistic ta có thể:
- Xác định sự tƣơng quan giữa biến số y với một biến số x1 sau khi đã kiểm soát ảnh hƣởng
của các biến số x2, x3... khác, có thể là những yếu tố gây nhầm lẫn hoặc thay đổi hiệu quả tƣơng
quan.
- Đo lƣờng mức độ nguy cơ (nguy cơ tƣơng đối RR hoặc tỉ số chênh OR) của một biến x1
đối với y sau khi đã kiểm soát ảnh hƣởng của các biến số x khác x2, x3...)
- Đo lƣờng đƣợc xác suất xảy ra y (mắc bệnh, tử vong...) của từng nhóm ngƣời mang một
hay nhiều yếu tố nguy cơ, yếu tố bảo vệ.
- Phát hiện đƣợc yếu tố gây nhầm lẫn, yếu tố thay đổi hiệu quả tƣơng quan.

54
Ví dụ: Bệnh tăng huyết áp có các yếu tố nguy cơ nhƣ: tố béo phì, hút thuốc lá, đái đƣờng,
rối loạn lipid máu. Các yếu tố này không tách rời nhau mà cùng góp phần ảnh hƣởng lên bệnh tăng
huyết áp của một cá nhân. Để khảo sát vấn đề này, ta có thể xây dựng mô hình hồi qui logistic,
trong đó biến phụ thuộc nhân hai giá trị, ứng với việc mỗi cá nhân có mắc bệnh tăng huyết áp (mã
hóa: 1) hay không (mã hóa: 0). Các biến độc lập có thể cho biết các cá nhân trong mẫu có béo phì,
hút thuốc lá, đái đƣờng, rối loạn lipid máu hay không. Các hệ số ƣớc lƣợng đƣợc bên cạnh các biến
độc lập sẽ cho biết mức độ ảnh hƣởng của các yếu tố kia tới bệnh huyết áp.
Yêu cầu thiết kế: gồm một biến phụ thuộc là biến nhị nguyên, qui ƣớc mã hóa: 0=không,
1=có. Các biến độc lập có thể bao gồm cả biến định tính và biến định lƣợng.
Thao tác lệnh:
Statistic
Regression
Logistic Regression
Tùy chọn:
Dependent variable: Chọn biến phụ thuộc cần khảo sát (tăng huyết áp)
Independent variable: Lần lƣợt chọn các biến độc lập (béo phì, hút thuốc lá, đái đường,
rối loạn lipid máu).
Dependent Y THA
Method Enter
Sample size 90
Cases with Y=0 63 (70.00%)
Cases with Y=1 27 (30.00%)
Coefficients and Standard Errors

55
Variable Coefficient Std. Error P
BeoPhi 0.1119 0.7697 0.0084
DaiDuong 3.0367 0.5989 <0.0001
HutThuoc 0.1251 0.4010 0.0071
RLLP 0.3656 0.5881 0.0442
Constant 8.1895
Odds Ratios and 95% Confidence Intervals
Variable Odds Ratio 95% CI
BeoPhi 0.8941 0.1978 to 4.0414
DaiDuong 20.8368 6.4420 to 67.3977
HutThuoc 1.1332 0.5164 to 2.4870
RLLP 1.4414 0.4551 to 4.5648
Kết quả:
Bảng Coefficients and Standard Errors xác định hệ số tƣơng quan (cột Coefficent) bi của
yếu tố xi với yếu tố y và p là mức ý nghĩa thống kê. Nhƣ vậy mỗi yếu tố nói trên đều có ảnh hƣởng
đến bệnh tăng huyết áp sau khi đã kiểm soát các yếu tố kia (p<0,05).
Bảng Odds Ratios and 95% Confidence Intervals xác định tỉ suất chênh của mỗi yếu tố xi
đối với y.

56
Chƣơng 8
ĐƢỜNG CONG ROC
Từ ROC (Receiver Operating Characteristic) bắt nguồn từ một phần của lĩnh vực đƣợc gọi
là thuyết phát hiện tín hiệu (Signal Detection Theory) dùng để phân tích hình ảnh trên radar trong
thế chiến thứ hai. Từ các tín hiệu nhận đƣợc, máy sẽ phân tích và vẽ đƣờng cong ROC, dự đoán
đƣợc tín hiệu nào là của máy bay địch hoặc tín hiệu nào do nhiễu (noise) Từ sau những năm 1970,
thuyết phát hiện tín hiệu này đƣợc dùng để diễn dịch kết quả các test trong chẩn đoán y học.
Mỗi điểm trên đƣờng cong ROC là tọa độ tƣơng ứng với tần suất dƣơng tính thật (độ nhạy)
trên trục tung và tần suất dƣơng tính giả (1- độ đặc hiệu) trên trục hoành. Đƣờng biểu diễn càng
lệch về phía bên trên và bên trái thì sự phân biệt giữa 2 trạng thái (ví dụ có bệnh hoặc không bệnh)
càng rõ.
Độ chính xác (accuracy) đƣợc đo lƣờng bằng diện tích dƣới đƣờng cong ROC (AUC). Nếu
diện tích bằng 1 là test rất tốt và nếu bằng 0,5 thì test không có giá trị. Xác định đơn giản mức độ
chính xác của test chẩn đoán dựa vào hệ thống điểm sau đây:
0,90 -1 : rất tốt
0,80 - 0,90 : tốt
0,70 - 0,80 : khá tốt
0,60 - 0,70 : tồi
0,50 - 0,60 : không giá trị
Ứng dụng đƣờng cong ROC trong nghiên cứu y học:
1. Xác định điểm cắt (cut off): Trong các test chẩn đoán bệnh, đƣờng cong ROC đƣợc dùng
để tìm điểm cắt (cut off) của các biến định lƣợng có giá trị phân biệt 2 trạng thái (ví dụ:
bệnh/không bệnh) tốt nhất, có nghĩa là tìm ngƣỡng (threshold) có độ nhạy và độ đặc hiệu cao nhất.
Ví dụ để phân biệt viêm phổi do vi trùng hoặc do virus ngƣời ta đo nồng độ CRP trong máu và tìm
điểm cắt có độ nhạy và độ đặc hiệu cao nhất để chẩn đoán phân biệt giữa viêm phổi do vi trùng
hoặc do virus.
2. Tính độ nhạy, độ đặc hiệu, giá trị tiên đoán dƣơng và giá trị tiên đoán âm tính.
3. So sánh độ nhạy, độ đặc hiệu của 2 test chẩn đoán: So sánh độ nhạy, độ đặc hiệu của ≥ 2
tests chẩn đoán bằng cách so sánh diện tích dƣới đƣờng cong ROC (Area Under the Curve). Test
nào có AUC lớn nhất sẽ có giá trị cao nhất để chẩn đoán. Diện tích dƣới đƣờng cong (AUC) chính
là tích phân của của hàm y (độ nhạy) theo x (1- độ đặc hiệu) với x từ 0->1
Yêu cầu thiết kế: bảng số liệu có một biến định lƣợng cần khảo sát độ nhạy, độ đặc hiệu và
một biến định tính xác định hai trạng thái: có và không.
Mã hóa bắt buộc: 0=không; 1=có.
Tùy theo vấn đề nghiên cứu mà ta xác định hai trạng thái đó. Ví dụ trong tiên lƣợng tử vong:
0=sống, 1=tử vong; trong xác định viêm màng não mũ (để phân biệt với viêm màng não virus):
0=viêm màng não virus, 1=viêm màng não mũ.
8.1. Xác định điểm cắt và tính độ nhạy, độ đặc hiệu
Thao tác lệnh:
Statistic
ROC curves
ROC curve analysis

57
Tùy chọn:
Variable: chọn biến định lƣợng cần khảo sát
Classification variable: chọn biến định tính xác định hai trạng thái cần phân biệt.
Ví dụ: Tìm độ nhạy, độ đặc hiệu của CRP trong chẩn đoán viêm phổi nhiễm khuẩn (phân
biệt với viêm phổi virus).
Bảng số liệu: gồm biến định lƣợng CRP và biến định tính viêm phổi đƣợc mã hóa: 0=viêm
phổi virus, 1=viêm phổi nhiễm khuẩn.
0 20 40 60 80 100
0
20
40
60
80
100
100-Specificity
Sensitivity
Variable CRP
Classification variable viem_phoi
Area under the ROC curve (AUC) 0.741

58
Significance level P (Area=0.5) 0.0001
Criterion values and coordinates of the ROC curve [Hide]
Criterion Sensitivity 95% CI Specificity 95% CI +LR -LR
>=0.105 100.00 86.3 - 100.0 0.00 0.0 - 5.5 1.00
>12.5 * 76.00 54.9 - 90.6 75.38 63.1 - 85.2 3.09 0.32
>125 0.00 0.0 - 13.7 100.00 94.5 - 100.0 1.00
Kết quả: Diện tích dƣới đƣờng cong AUC=0,741, p=0,0001, ở điểm cắt CRP>12,5 cho độ
nhạy và độ đặc hiệu tối ƣu (76% và 75,38%).
8.2. So sánh độ nhạy, độ đặc hiệu của 2 test chẩn đoán
Thao tác lệnh:
Statistic
ROC curves
Comparision of ROC curve
Tùy chọn:
Variable: lần lƣợt chọn các biến định lƣợng cần so sánh
Classification variable: chọn biến định tính xác định hai trạng thái.
Ví dụ: So sánh độ nhạy, độ đặc hiệu của CRP với Hs-CRP trong chẩn đoán viêm phổi.
Thao tác lệnh nhƣ trên, xuất hiện hộp thoại sau.
Kết quả sẽ cho biết diện tích dƣới đƣờng cong của mỗi test chẩn đoán.

59
Chƣơng 9
PHÂN TÍCH THỜI GIAN SỐNG
Trong nghiên cứu y học chúng ta thƣờng gặp những câu hỏi nhƣ: thời gian sống trung bình
của những bệnh nhân ghép gan, thời gian sống trung bình của bệnh nhân leucemie hoặc tỉ lệ bệnh
nhân leucemie sống sót sau 5 năm.
Trong các trƣờng hợp trên, biến số khảo sát là một khoảng thời gian liên tục, trong đó có
những bệnh nhân đã chết trong thời gian thực hiện nghiên cứu (tức sự kiện đã sảy ra) nhƣng có
những bệnh nhân vẫn còn sống sót vào thời điểm kết thúc cuộc nghiên cứu (tức sự kiện nghiên cứu
đã không xảy ra) và ta không thể biết chính xác thời gian sống của những bệnh nhân này.
Các kỹ thuật phân tích thời gian sống đƣợc sử dụng để thực hiện các cuộc khảo sát tƣơng tự
nhƣ trên và đƣợc mở rộng cho các cuộc khảo sát có tính chất tƣơng tự: Thời gian không có triệu
chứng của ngƣời nhiễm HIV, hoặc thời gian sốt trung bình của bệnh nhân sốt xuất huyết.
Các kỹ thuật phân tích thời gian sống, ngoài tác dụng mô tả thời gian sống của một quần thể
khảo sát, còn đƣợc dùng để so sánh hiệu quả của các phƣơng thức điều trị khác nhau đối với việc
kéo dài thời gian sống của ngƣời mắc bệnh.
Cách tính thời gian sống:
- Trƣờng hợp bệnh nhân chết trong thời gian thực hiện cuộc khảo sát:
Thời gian sống = Thời điểm BN chết - Thời điểm bắt đầu của bệnh nhân
- Trƣờng hợp bệnh nhân vẫn còn sống vào thời điểm kết thúc cuộc khảo sát hoặc trong thời
gian thực hiện khảo sát:
Thời gian sống = Thời điểm kết thúc cuộc khảo sát (hoặc thời điểm ghi nhận thông tin lần
cuối) - Thời điểm bắt đầu của bệnh nhân.
Trong trƣờng hợp này, thời gian sống đƣợc tính không đúng với thực tế (không chính xác)
và đƣợc gọi là censored.
Yêu cầu thiết kế:
- Biến định lƣợng thời gian sống
- Biến định tính xác nhận kết cục: qui ƣớc mã hóa: 0=sống (censored), 1= chết.
9.1. Phân tích thời gian sống bằng phƣơng pháp Kaplan - Meier
Phƣơng pháp này cho biết tỷ lệ sống sau từng khoảng thời gian.
Thao tác lệnh:
Statistics
Survival analysis
Kaplan-Meier survival curve
Tùy chọn:
Survival time: chọn biến thời gian sống.
Enpoint: chọn biến xác nhận kết quả (chết, censored)
Ví dụ: Phân tích thời gian sống của bệnh nhân ung thƣ dạ dày.

60
ketcuc
0 10 20 30 40
40
50
60
70
80
90
100
Thoi gian song (thang)
Bảng kết quả:
Survival time Thoigiansong
Endpoint ketcuc
Sample size 90
Median survival 31
Survival
time
Survival
Proportion
Standard
Error
1 0.978 0.0155
2 0.967 0.0189
31 0.400 0.124
Chú thích bảng: Survival time: thời gian sống; Survival Proportion: tỉ lệ tƣơng ứng với các
mốc thời gian sống. Trong ví dụ trên, 98,7% bệnh nhân leucemie sống thêm 1 tháng, 96,7% sống
thêm 2 tháng,.. 40% sống thêm 31 tháng.
9.2. So sánh thời gian sống của các nhóm bệnh nhân bằng test Logrank
Ví dụ: Để đánh giá hiệu quả thời gian sống của một phƣơng thức điều trị mới (kết hợp phẫu
thuật với hóa trị) đố với một bệnh ung thƣ so với phƣơng thức điều trị phẫu thuật đơn thuần, ngƣời
ta chọn 2 nhóm bệnh nhân: 1= phẫu thuật đơn thuần; 2= phẫu thuật kết hợp hóa trị.
Yêu cầu thiết kế:

61
- Biến định lƣợng thời gian sống
- Biến định tính xác nhận kết cục (censored, chết)
- Biến định tính phân nhóm để so sánh.
Thao tác lệnh
Statistics
Survival analysis
Kaplan-Meier survival curve
Tùy chọn:
Survival time: chọn biến thời gian sống.
Enpoint: chọn biến xác nhận kết quả (chết, censored)
Factors: Chọn biến định tính phân nhóm
Ví dụ: So sánh thời gian sống của 2 nhóm bệnh nhân đƣợc điều trị hóa chất đơn thuần và
nhóm điều trị phối hợp phẫu thuật + hóa trị.
ketcuc
0 10 20 30 40
30
40
50
60
70
80
90
100
Thoi gian song (thang)
PP DT
Hoa chat
PT+HC

62
Survival time Thoigiansong
Endpoint ketcuc
Factor codes Phuongphap_DT
Comparison of survival curves (Logrank test)
Endpoint: Observed n 18.0 11.0
Expected n 15.0 14.0
Chi-square 1.2762
DF 1
Significance P = 0.2586
Kết quả: p>0,05, kết luận không có sự khác biệt về thời gian sống giữa nhóm bệnh nhân
đƣợc điều trị hóa chất đơn thuần và nhóm đƣợc điều trị phẫu thuật + hóa trị trong ung thƣ dạ dày.
9.3. Khảo sát tƣơng quan giữa thời gian sống và nhiều yếu tố ảnh hƣởng
Phƣơng pháp logrank chỉ cho phép chúng ta so sánh tím sự khác biệt thời gian sống của hai
hay nhiều nhóm bệnh nhân đƣợc chia nhóm bằng một biến (phân tích một chiều). Khi cuộc nghiên
cứu muốn tìm hiều ảnh hƣởng đối với thời gian sống của cùng lúc nhiều yếu tố, ta phải sử dụng kỹ
thuật phân tích hồi qui Cox.
Các yếu tố ảnh hƣởng đến thời gian sống có thể là:
- Hai hay nhiều phƣơng thức điều trị
- Tình trạng lâm sàng, cận lâm sàng của bệnh nhân: giai đoạn ung thƣ, kích thƣớc của bƣớu,
loại ung thƣ...
- Đặc điểm của bệnh nhân: giới tính, tuổi, chủng tộc.
Thao tác lệnh:
Statistics
Survival analysis
Cox proportional-hazards regression
Tùy chọn:
Survival time: chọn biến thời gian sống
Endpoint: chọn biến kết cục
Predictor variable: chọn các biến cần khảo sát mức độ ảnh hƣởng của nó đối với thời gian
sống.
Ví dụ: Khảo sát tƣơng quan giữa thời gian sống của 90 bệnh nhân ung thƣ dạ dày với các
yếu tố ảnh hƣởng: tuổi bệnh nhân (1= <50; 2= ≥50), giai đoạn (1, 2, 3, 4), tình trạng di căn
(0=không; 1=có).

63
Bảng kết quả:
Coefficients and Standard Errors
Covariate b SE P Exp(b) 95% CI of Exp(b)
tuoi 0.5046 0.2579 0.05041 1.6564 1.0017 to 2.7389
giai_doan 0.4811 0.2575 0.03169 1.6178 0.9792 to 2.6729
di_can 0.02814 0.4068 0.0448 0.9723 0.4398 to 2.1491
Kết quả: b là hệ số hồi qui từng phẩn của các yếu tố đối với thời gian sống, p là ý nghĩa
thống kê. Ở ví dụ này thời gian sống có tƣơng quan có ý nghĩa với giai đoạn ung thƣ và tình trạng
di căn (p<0,05), không tƣơng quan với tuổi (p>0,05).

64
Chƣơng 10
CÁC TEST THỐNG KÊ TRỰC TIẾP
TỪ BẢNG TRÌNH BÀY
Chƣơng trình medcalc cung cấp các công cụ thực hiện các test thống kê trực tiếp từ các bảng
trình bày mà không cần số liệu gốc. Đây là một tiện ích mà không phải bất cứ một phần mềm xử lý
số liệu nào cũng làm đƣợc. Điều này rất hữu ích cho các nhà phản biện muốn kiểm tra tính chính
xác của các bảng trình bày trong luận văn, luận án.
Điều kiện áp dụng các test thống kê này nhƣ đã trình bày trong chƣơng 3. Chúng tôi sẽ lần
lƣợt trình bày cách sử dụng của từng test theo thứ tự của nó trên menu.
10.1. Test for one mean
Ứng dụng: kiểm định một trung bình mẫu với một kỳ vọng lý thuyết
Ví dụ: Một hãng sản xuất aspirin công bố mỗi viên có hàm lƣợng 0,5g. Cơ quan kiểm tra
chất lƣợng đã chọn ngẫu nhiên 100 viên trên thị trƣờng, xét nghiệm thấy hàm lƣợng trung bình là
0,487, độ lệch chuẩn 0,035. Căn cứ vào kết quả kiểm tra đó, đã đi đến kết luận: thuốc đóng gói
không đảm bảo đủ hàm lƣợng, cần phải thu hồi. Hãng thuốc có chấp nhận những kết luận đó không
hay là có thể kiện lại?
Thao tác lệnh:
Test
Test for one mean
Tùy chọn:
Mean: nhập giá trị trung bình của mẫu
Standard deviation: độ lệch chuẩn.
Sample size: cỡ mẫu.
Test mean equal to: giá trị trung bình kỳ vọng theo lý thuyết (để so sánh).
Áp dụng cho ví dụ trên:

65
Kết quả: p<0,01. Kết luận: Thuốc đóng gói thiếu hàm lƣợng so với tiêu chuẩn qui định.
Thuốc phải đƣợc thu hồi và hãng thuốc không thể chối cãi đƣợc.
10.2. Test for one proportion
Ứng dụng: Kiểm định một lệ nghiên cứu với một tỉ lệ chuẩn
Ví dụ: Theo công bố của hội Tim mạch học Việt Nam, tỉ lệ tăng huyết áp ở ngƣời lớn tuổi
trong cộng đồng là 30%. Một nghiên cứu khác trên mẫu 600 ngƣời lớn tuổi tại một xã A, thấy có
210 bị tăng huyết áp (35%). Có thể kết luận chính xác tỉ lệ tăng huyết áp ở xã này tăng lên hay
không?
Thao tác lệnh:
Tests
Test for one proportion
Tùy chọn:
Observed proportion (%): nhập tỉ lệ % của mẫu.
Sample size: cỡ mẫu.
Null Nypothesis: nhập tỉ lệ giả định.
Trong ví dụ trên, ta thực hiện các bƣớc nhƣ sau:

66
Kết quả: p=0,0075. Kết luận: sự khác biệt về tỉ lệ tăng huyết áp ở xã A so với cộng đồng là
có cơ sở khoa học (có ý nghĩa thống kê).
10.3. Test χ2
Đối với bảng phân phối tần số một chiều
: Trong một đợt sốt xuất huyết, có 30 bệnh nhân vào viện, trong đó có 20 nữ và 10
nam. Có thể kết luận là nữ có xu hƣớng bị sốt xuất huyết nhiều hơn nam không?
Lập bảng:
Giới Sốt xuất huyết (n) Tỉ lệ (%)
Nam 10 33,3
Nữ 20 66,7
p=?
Thao tác lệnh:
Test
Chi-squre test
Tùy chọn: lần lƣợt nhập các số (không phải tỉ lệ) vào các ô của hộp thoại.
Ghi chú: các số có thể nhập theo cột hoặc theo hàng kết quả đều nhƣ nhau.
Kết quả: χ2
=2,7, p>0,05. Kết luận: sự chênh lệch giữa số lƣợng bệnh nhân nam và nữ chƣa
đạt độ tin cậy, cần phải nghiên cứu tiếp với số lƣợng lớn hơn.
Đối với bảng phân phối tần số hai chiều
Ví dụ: Khảo sát sự liên quan giữa trình độ văn hóa mẹ và mức độ suy dinh dƣỡng của con.
Lập bảng:

67
SDD
TĐVH
1 21 12 41
2 42 12 47
3 15 42 25
ĐH,... 18 15 27
Thao tác lệnh:
Test
Chi-squre test
Tùy chọn: nhập các số (không phải tỉ lệ) của bảng lần lƣợt vào các ô của hộp thoại.
Kết quả: χ2
=45,032, p<0,01. Kết luận: có sự liên quan giữa trình độ văn hóa mẹ với mức độ
suy dinh dƣỡng của con.
10.4. Test Fisher
Yêu cầu thiết kế: bảng 2 x 2.
Thao tác lệnh:
Tests
Fisher's exact test
Tùy chọn: nhập các số (không phải tỉ lệ) trong bảng vào các ô tƣơng ứng của hộp thoại sau:

68
10.5. Test Mc Nemar
Thao tác lệnh:
Tests
McNemar test
Tùy chọn: nhập các số trong bảng vào các ô tƣơng ứng của hộp thoại sau:
10.6. Test so sánh 2 giá trị trung bình
Ví dụ: So sánh huyết áp trung bình của nam và nữ
Giới n HATT trung bình Độ lệch chuẩn (SD)
Nam 245 125,7 4,6
Nữ 154 107,3 3,9
p=?
.
Thao tác lệnh:
Test
Comparision of

69
Comparision of means (t-test)
Tùy chọn:
1st set of data: lần lƣợt nhập giá trị trung bình, độ lệch chuẩn, số trƣờng hợp của nhóm thứ
nhất vào các ô tƣơng ứng.
2st set of data: lần lƣợt nhập giá trị trung bình, độ lệch chuẩn, số trƣờng hợp của nhóm thứ
hai vào các ô tƣơng ứng.
Kết quả: p<0,01. Kết luận: sự khác biệt về huyết áp tối đa trung bình của nam và nữ có ý
nghĩa thống kê.
10.7. Test so sánh 2 tỉ lệ %
Ví dụ : So sánh tỉ lệ nhiễm HP ở nhóm có và không có tổn thƣơng loét dạ dày
Tổn thƣơng loét dạ dày N Nhiễm HP (n) % (n/N)
Có 61 48/61 78,7
Không 132 21/132 15,9
p=?
.
Thao tác lệnh:
Test
Comparision of
Proportions
Tùy chọn:

70
1st set of data:
Proportion (%): nhập tỉ lệ % thứ nhất
Number of case: nhập số mẫu số của phép chia cho ra tỉ lệ % thứ nhất.
2st set of data:
Proportion (%): nhập tỉ lệ % thứ hai
Number of case: nhập số mẫu số của phép chia cho ra tỉ lệ % thứ hai.
Kết quả: p<0,01. Kết luận: có sự khác biệt về tỉ lệ nhiễm HP ở nhóm có và không có tổn
thƣơng loét dạ dày.
10.8. Ƣớc lƣợng khoảng tin cậy 95% của một tỉ lệ
Khi suy diễn từ mẫu nghiên cứu ra cho quần thể thì không dùng một tỉ lệ cụ thể mà nêu từ
mức thấp đến mức cao của giới hạn tin cậy 95% (viết tắt 95% CI).
Ví dụ: Nhằm phát hiện tật khúc xạ mắt ở một trƣờng tiểu học A, chọn ngẫu nhiên 100 học
sinh phát hiện có 21 em có tật khúc xạ. Ƣớc tính tỉ lệ học sinh có tật khúc xạ tại trƣờng tiểu học đó
là bao nhiêu?
Thao tác lệnh:
Test
Rates
Confidence interval for a rate
Tùy chọn:
Numerator: tử số (ví dụ: số trƣờng hợp mắc bệnh)
Denominator: mẫu số (ví dụ: cỡ mẫu nghiên cứu)

71
Kết quả: tỉ lệ mắc tật khúc xạ của mẫu nghiên cứu 21%, ƣớc lƣợng cho toàn bộ học sinh
trong trƣờng, tỉ lệ này từ 12,99% đến 32,10% với độ tin cậy 95%.
10.9. Nguy cơ tƣơng đối (RR)
(tƣơng lai).
Yêu cầu thiết kế: bảng 2 x 2. Chú ý thứ tự của các giá trị (+) và (-) trong hàng và cột: trên -
trƣớc, dƣới - sau.
(+) (-)
(+) a b
(-) c d
Thao tác lệnh:
Test
Relative risk
Tùy chọn:
Exposed group: nhập các số trong cột thứ nhất vào các ô tƣơng ứng
Control group: nhập các số trong cột thứ hai vào các ô tƣơng ứng

72
10.10. Tỉ suất chênh (OR)
.
Yêu cầu thiết kế: bảng 2 x2. Thứ tự của các giá trị (+) và (-) giống nhƣ trong thủ tục tính
RR.
Thao tác lệnh:
Test
Odds ratio
Tùy chọn:
Cases with positive outcome: lần lƣợt nhập các số trong cột thứ nhất vào các ô tƣơng ứng.
Cases with negative outcome: lần lƣợt nhập các số trong cột thứ hai vào các ô tƣơng ứng.
10.11. Chỉ số phù hợp Kappa
.
Yêu cầu thiết kế: bảng k x k (số hàng và số cột bằng nhau)
Thao tác lệnh:
Test
Inter - Rater argument
Tùy chọn: nhập các số trong bảng lần lƣợt vào các ô tƣơng ứng trong hộp thoại sau.

73
10.12. Độ nhạy, độ đặc hiệu
Thao tác lệnh:
Test
Diagnostic test (2x2 table)
Tùy chọn: nhập các số trong bảng vào các ô tƣơng ứng trong hộp thoại sau.
Nhấn test hoặc enter để kết thúc.

Huong dan su dung medcalc

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (10)

Similar a Huong dan su dung medcalc

Similar a Huong dan su dung medcalc (20)

Más de Huy Hoang

Más de Huy Hoang (20)

Último

Último (20)

Huong dan su dung medcalc