2. Sejauh mana alat tersebut dapat
mengukur apa yang sepatutnya diukur
oleh alat tersebut (Hanna & Dettmer,2004).
Ciri kesahan bagi sesuatu alat ukuran
adalah amat penting supaya alat ukuran
tersebut dapat mengukur apa yang hendak
diukur.
3. Alat yang dibina untuk mengukur sikap, hendaklah berupaya
mengukur sikap, dan bukannya konstruk lain, seperti minat
atau motivasi.
Ujian diagnosis adalah tidak sah digunakan untuk tujuan
penggredan.
Dalam bidang bahasa,misalnya, ujian ejaan hanyalah sah,
sekiranya ia benar-benar dapat mengukur kebolehan
mengeja; ujian mendengar hanyalah sah, sekiranya ia dapat
mengukur kemahiran
mendengar.
Contoh: mengenal pasti di antara kecergasan
pernafasan kardio dan kebolehan bermain tenis.
Contoh: Ujian kecergasan tidak boleh digunakan
untuk menentukan kemahiran dalam permainan
tenis.
4. Mehrens dan Lehmann (1991) - empat
jenis kesahan
(1) kesahan kandungan (content validity),
(2) kesahan konstruk (contruct validity), (3)
kesahan muka (face validity), dan
(4) kesahan hubungan kriteria(criterion-
related validity).
5. Sejauh mana sesuatu alat ukuran itu mencakupi
kandungan pelajaran yang telah ditetapkan.
Kesahan kandungan adalah penting, terutama
bagi ujian pencapaian, sebab markah
yangdiperolehi pelajar akan menunjukkan tahap
pencapaian pelajar tersebut bagi kandungan
pelajaran tertentu.
Sekiranya soalan ujian tidak meliputi secukupnya
kandungan pelajaran tersebut, penilaian terhadap
pencapaian pelajar menjadi tidak sah/bais.
6. Beberapakaedah boleh diguna untuk
meningkatkan kesahan kandungan, seperti
merujuksemula kepada buku rekod
pengajaran dan juga sukatan pelajaran.
Guru boleh menggunakan Jadual Penentuan
Ujian (JPU) dan membina soalan-soalan ujian
mengikut jadual tersebut. Kaedah-kaedah ini
dapat memastikan soalan-soalan ujian
mewakili semua objektif pengajaran serta
semua tajuk dan kemahiran yang telah diajar.
7. 1.Pengetahuan
Memerlukan calon mengingat semula.
Contoh kata kerja:
Labelkan (label) , Senaraikan (list),
Nyatakan (state), Pilih (select), Ingat
kembali (recall), Susun (arrange), Hasilkan
semula (reproduce), Hubungkaitkan
(relate), Beri definisi (define), Huraikan
(describe).
8. 2. Kefahaman
Memerlukan calon memahami dan
menghuraikan fakta serta memberi contoh
atau illustrasi.
Contoh kata kerja:
Terangkan (explain), Huraikan (describe),
Ramalkan (predict), Tukarkan (change),
Nyatakan semula (restate), Ringkaskan
(summarise), Kaji semula (review),
Bincangkan (discuss), Kenalpastikan
(identify), Laporkan (report), Terjemahkan
(translate).
9. 3. Aplikasi
Memerlukan calon menyelesaikan masalah „non-
routine‟ atau masalah baru. Ciri soalan adalah
„problem-solving‟. Masalah diselesaikan dengan
cara tersendiri menggunakan gabungan teori,
pengalaman dan pelbagai kaedah penyelesaian
masalah yang mempunyai unsur persamaan.
Contoh kata kerja:
Aplikasikan (apply), Tunjukkan (show), Kelolakan
(organise), Kaitkan (relate), Tafsirkan (interpret),
Selesaikan (solve), Lakarkan (sketch), Terapkan
(adopt), Jadualkan (schedule).
10. 4. Analisis
Memerlukan calon menganalisis,
memecah/mencerakinkan fakta untuk mengkaji unsur-
unsurnya secara mendalam termasuk membanding,
membeza, mengupas dan membukti.
Contoh kata kerja:
Analisis (analyse), Taksirkan (appraise), Hitungkan
(calculate), Bandingkan (compare), Kategorikan
(categorise), Diskriminasikan (discriminate), Kaji
(examine), Lakarkan (sketch), Kenalpastikan (identify),
Buat kesimpulan (infer), Bahagikan (Subdivide),
Tunjukkan (point out), Gariskan (outline), Bezakan
(distinguísh/contrast), Buktikan (prove)
11. 5. Sintesis
Memerlukan calon merancang, mereka/mencipta dan
menghasilkan sesuatu yang kreatif yang
menggabungkan pelbagai unsur. Ini termasuk
penghasilan sesuatu rancangan, rumusan,
kaedah/prosedur, atau cadangan.
Contoh kata kerja:
Susunkan (arrange), Bentukkan (formulate), Aturkan
(organise), Bina (build), Gambarkan (illustrate), Ubah
(change), Karang (compose), Pasang (assemble),
Semak (revise), Buat hipotesis (hypothesise),
Ramalkan (predict), Uruskan (manage), Susun semula
(reorder), Himpunkan (collect), Hasilkan (produce),
Rancangkan (plan), Sediakan
12. 6. Penilaian
Memerlukan calon menilai, membuat
pertimbangan atau justifikasi untuk mencapai atau
mendapatkan sesuatu kesimpulan. Calon perlu
melihat fakta dari aspek „pro dan cons‟ semasa
membuat penilaian.
Contoh kata kerja:
Taksirkan (evaluate), Nilaikan (appraise),
Pertimbangkan (justify), Gredkan (grade), Sokong
(support), Utamakan (prioritise), Arbitrasikan
(arbitrate), Pertahankan (defend), Syorkan
(recommend), Simpulkan (conclude), Ramalkan
(predict), Kritik (criticize).
13. Kesahan konstruk/gagasan merujuk
kepada sejauh mana sesuatu alat ukuran
itu dapat mengukur sesuatu
konstruk/gagasan berasaskan teori
Contoh, alat yang dibina untuk mengukur
konstruk “sabar” sepatutnya dapat
mengukur konstruk ini dengan baik.
Contoh: Kemahiran
14. Kesahan muka bukanlah “kesahan” seperti
definisinya yang kita fahami, tetapi ia lebih
kepada sesuatu alat ukuran “nampak pada
permukaannya” mempunyai kesahan yang
tinggi.
Ini bermaksud, sekali pandang, nampak
alat ukuran itu sah, atau orang biasa/tidak
terlatih nampak alat ini sebagai sah.
15. Bagaimanapun, kesahan muka mempunyai kepentingannya
sendiri, mempengaruhi orang yang menjawab item inventori
merasa yakin terhadap inventori tersebut.
Sekiranyainventori ini dirasakan tidak sesuai, besar
kemungkinan orang tidak akan menjawab item-itemnya
secara serius, skornya dirasakan tidak sah dan, dengan
demikian, tidakboleh digunakan.
Sebaliknya, kesahan muka juga memberikan masalah kepada
kesahan konstruk dan kesahan berkaitan kriteria, sebabnya,
apabila seseorang itu mengetahui siapa yang ingin diukur, dia
akan memberikan jawapan yang sentiasa “positif”.
16. Merujukkepada sejauh mana sesuatu
alatukuran itu dapat menghasilkan skor
yang mempunyai hubungan dengan
beberapa ukuran luaran (kriteria).
17. Ukuran luaran ini boleh dibahagikan kepada
dua jenis, iaitu pertama, ukuran serentak
(concurrent measure), iaitu apabila ukuran
luaran diambil serentak dengan ukuran
alat;dan kedua, ukuran ramalan (predictive
measure), iaitu apabila ukuran luaran
diambilselepas ukuran alat.
Daripada ukuran-ukuran luaran ini, kita boleh
mencari kesahan serentak dan kesahan
ramalan seperti berikut.
18. Kesahan serentak merujuk kepada sejauh mana
sesuatu alat ukuran itudapat menghasilkan skor
yang mempunyai hubungan dengan
ukurandaripada alat lain yang diambil serentak.
Sebagai contoh, sekiranya alat ukuran kecerdasan
A menghasilkan skor yangmempunyai hubungan
(pekali korelasi tinggi) yang kuat dengan skor
daripada alatukuran kecedasan B, maka alat A
dikatakan mempunyai kesahan serentak
yangtinggi. Dengan demikian, alat A boleh
mengganti alat B untuk mengukur kecerdasan
19. Kesahan ramalan merujuk kepada sejauh mana
sesuatu alat ukuran itudapat menghasilkan skor
yang mempunyai hubungan dengan
ukurandaripada alat lain yang diambil kemudian
Sebagai contoh, sekiranya ujian percubaan
matematik menghasilkan markah yangmempunyai
hubungan yang kuat dengan gred matematik SPM,
maka ujian matematikpercubaan dikatakan
mempunyai kesahan ramalan yang tinggi. Ini
bermaknapencapaian pelajar dalam ujian
percubaan dapat meramal keputusan SPM.
20. Bagaimanapun, kesahan muka mempunyai
kepentingannya sendiri, mempengaruhi orangyang
menjawab item inventori merasa yakin terhadap
inventori tersebut.
Sekiranyainventori ini dirasakan tidak sesuai, besar
kemungkinan orang tidak akan menjawab item-
itemnya secara serius, skornya dirasakan tidak sah
dan, dengan demikian, tidakboleh digunakan.
Sebaliknya, kesahan muka juga memberikan masalah
kepada kesahankonstruk dan kesahan berkaitan
kriteria, sebabnya, apabila seseorang itu
mengetahuisapa yang ingin diukur, dia akan
memberikan jawapan yang sentiasa “positif”.
21. Ketekalanukuran-ukuran (consistency of
measures) yang dihasilkan oleh alat
tersebut(Hanna & Dettmer, 2004).
- Justeru, kebolehpercayaan ujian
bermaksud ketekalan markah-markah
yang dihasilkan oleh ujian tersebut
22. Darjah ketekalan ukuran-ukuran boleh ditentukan
dalam pelbagai keadaan, misalnya, apabila ujian
yang sama diambil oleh pelajar kali kedua, ujian
yang sama ditadbirkan oleh guru lain,ujian yang
sama diambil oleh pelajar pada waktu yang
berbeza (pagi/petang), jawapan kepadaujian yang
sama diperiksa oleh pemeriksa yang berbeza.
Ujian yang baik/sesuai adalah ujianyang
mempunyai darjah ketekalan (degree of
consistency) yang tinggi, iaitu markah/skoryang
dihasilkan adalah hampir sama dalam apa jua
keadaan.
23. Dari
segi definisi operasi, pekali/indeks
kebolehpercayaan boleh dikira/dianggar
(compute/estimate) dengan menggunakan
pekali korelasi antara dua (2) ukuran yang
boleh dikira menggunakan pelbagai
kaedah
24. Seperti julat pekali korelasi, julat indeks kebolehpercayan juga
adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif
menunjukkan ketekalan yang songsang, iaitu pelajar yang mendapat
skor tinggi dalam ujian kali pertamaakan mendaapat skor yang
rendah dalam ujian kali kedua, dan sebaliknya. Kita berharap
keadaan begini tidak berlaku dalam mana-mana ujian.
Kebiasaannya indeks kebolehpercayaan bernilai positif, dan bagi
kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.
25. Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan
mengikut indeks (r) seperti yangditunjukkan dalam Jadual
5.5.Seterusnya, Mehrens dan Lehmann (1991)
menyenaraikan lima jenis kebolehpercayaan danjuga kaedah
menentukan indeksnya. Jenis-jenis kebolehpercayaan
tersebut ialah: (1) UkuranKestabilan (Measure of Stability),
Ukuran Kesetaraan (Measure of Equivalence), (3)
UkuranKesetaraan dan Kesetabilan (Measure of Equivalence
and Stability ), (4) Ukuran KetekalanDalaman (Measure of
Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa
(ScorerReliability). Jenis-jenis kebolehpercayaan, kaedah
pengukuran dan kaedah pengiraan indekskebolehpercayaan
berkenaan dijelaskan dalam bahagian berikut.
26. Jadual 5.5: Indeks Kebolehpercayaan
dan Pengkelasan Ujian Nilai
Nilai (r) Pengkelasan Ujian
< 0.20 Tidak baik
0.21 – 0.40 Kurang baik
0.41 – 0.60 Sederhana baik
0.61 – 0.80 Baik
0.81 – 1.00 Sangat baik
27. Mehrens dan Lehmann (1991) menyenaraikan
lima jenis kebolehpercayaan dan
juga kaedah menentukan indeksnya. Jenis-jenis
kebolehpercayaan tersebut ialah: (1) Ukuran
Kestabilan (Measure of Stability), Ukuran
Kesetaraan (Measure of Equivalence), (3) Ukuran
Kesetaraan dan Kesetabilan (Measure of
Equivalence and Stability ), (4) Ukuran Ketekalan
Dalaman (Measure of Internal Consistency), dan
(5) Kebolehpercayaan Pemeriksa (Scorer
Reliability).
28. Ukuran Kestabilan, yang juga dipanggil
“anggaran kebolehpercayaan uji-uji
semula” (test-restest estimate of reliability)
boleh dikira dengan memberikan
ujian yang sama sekali lagi kepada kumpulan
pelajar yang sama selepas
ujian pertama ditadbirkan, dan seterusnya,
mengira pekali korelasi Pearson
antara dua/pasangan skor yang diperoleh
setiap pelajar.
29. Berbeza daripada kaedah uji-uji semula yang
menggunakan ujian yang sama,
Ukuran Kesetaraan [atau Ukuran Keselarian
(parallel)] dikira dengan
memberikan dua (2) ujian yang berbeza tapi setara
(kesamaan dari segi
kandungan, Jadual Spesifikasi Ujian, format
soalan dan arahan menjawab
serta min, varians dan interkorelasi skor) kepada
kumpulan pelajar dan hari
yang sama, dan seterusnya, mengira pekali
korelasi Pearson antara dua/
pasangan skor yang diperoleh setiap pelajar.
30. Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan
kepada kita untuk membuat
generalisasi skor yang akan diperoleh pelajar, sekiranya
mereka diberi ujian yang terdiri
daripada item-item lain yang setara dengan item-item ujian
yang telah diberikan. Ujian
yang setara ini penting sekiranya seseorang penyelidik
enggan menggunakan soalan
yang sama sebagai ujian-pra dan ujian-pos (untuk mengelak
daripada pelajar menghafal
jawapan). Dalam hal ini, dua ujian yang setara boleh
digunakan, satu sebagai ujian-pra
dan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara
juga boleh digunakan untuk
menguji dua kumpulan pelajar yang berbeza pada berlainan
masa.
31. Ada kalanya kita ingin melihat ketekalan pencapaian
seseorang pelajar untuk jangkamasa yang panjang
dengan menggunakan ujian yang berbeza. Justeru,
kaedah yang sesuai untuk membuat pengukuran ini
ialah dengan mentadbirkan ujian kedua yang
setaradengan ujian pertama (Ukuran Kesetaraan)
pada suatu masa yang lain (UkuranKestabilan).
Kebolehpercayaan ini, yang merangkumi Ukuran
Kesetaraan dan UkuranKestabilan, dinamakan Ukuran
Kesetaraan dan Kestabilan. Indeks
kebolehpercayaanini boleh ditentukan oleh pekali
korelasi Pearson antara dua/pasangan skor yang
diperolehsetiap pelajar, iaitu skor ujian pertama dan
skor ujian kedua yang ditadbirkan kemudian
32. Berbeza daripada ketiga-tiga ukuran ketekalan
yang dijelaskan sebelum ini, Ukuran
Ketekalan Dalaman boleh ditentukan dengan
menggunakan sekali ujian sahaja. Salah
satu daripada kaedah yang digunakan untuk
mengukur ketekalan dalaman ialah dengan
membelah/memecahkan ujian kepada separuh-
separuh (split-half), iaitu separuh pertama
dan separuh kedua. Ukuran Ketekalan Dalaman
Belah-Dua ini dapat menggambarkan
kesetaraan dalaman ujian, iaitu antara separuh
pertama dengan separuh kedua sesuatu
ujian.
33. Kebolehpercayaan pemeriksa bermaksud
ketekalan ukuran/skor yang
diberikan oleh dua atau lebih pemeriksa
apabila memeriksa kertas jawapan
yang sama. Kebolehpercayaan ini tidak
diperlukan bagi ujian berbentuk
objektif, sebab jawapan kepada setiap soalan
dalam ujian bentuk ini adalah
sama, iaitu perbezaan skor antara pemeriksa
tidak wujud (biasanya jawapan
diperiksa oleh komputer sahaja).
34. Beberapa faktor didapati mempengaruhi
kebolehpercayaan ujian, termasuk panjang
ujian, kehomogenan kumpulan, kesukaran
item dan objektiviti jawapan.