Pada
sebagian orang, isu kesahihan (validitas) dan keandalan (reliabilitas) adalah
inti dari diskusi-diskusi tentang penilaian. Isu-isu teknis adalah hal penting
dalam mempertimbangkan semua bentuk penilaian termasuk yang terjadi setiap hari
di dalam kelas (AERA, APA, dan NCNM, 1999). Meskipun prinsip-prinsip yang
dianut sama namun secara operasional tampak ada perbedaan berdasarkan pada
tujuan penilaian sumatif dan formatif.
Isu
tentang validitas mengarah pada apakah penilaian mengukur atau mengungkapkan
apa yang hendak diukur. Atkin, Black, & coffey (2001) mengatakan bahwa
kesahihan memiliki dimensi termasuk tiga yang akan dibahas yakni kesahihan isi
(content validity), kesahihan konstruk ( construct validity) dan kesahihan
intruksional (intrutional validity). Kesahihan isi mengacu pada tingkatan
dimana suatu penilaian mampu mengukur area isi yang diharapkan. Kesahihan
konstruk mengacu pada tingkatan dimana penilaian mengukur konstruk teori atau
kemampuan yang diharapkan. Suatu penilaian menggambarkan kesahihan
instruksional, apabila materi atau isi sepadan dengan apa yang benar-benar
diajarkan.
Penilaian
memerlukan tujuan yang sepadan dan jelas ketika mengumpulkan data, para guru
dan para siswa perlu mempertimbangkan jika informasi menunjukkan dengan teliti
apa yang mereka inginkan untuk diringkas, sesuai dengan mata pelajaran yang
diajarkan dan mencerminkan setiap konsekuensi social yang sengaja sebagai hasil
dari penilaian. Penilaian formatif yang tidak valid dapat menuju kepada
tindakan koreksi atau salah, atau tindakan yang lalai dimana hal tersebut
justru diperlukan.
A.
Ciri
Umum dan Interpretasi Validitas
Para ahli psikometri telah menetapkan kriteria bagi
suatu alat ukur psikologis untuk dapat dinyatakan sebagai alat ukur yang baik
dan mampu memberikan informasi yang sesuai dengan tujuan diadakannya suatu
pengukuran, kriterianya valid dan reliabel. Sifat reliabel dan vilid
diperhatikan oleh tingginya reabilitas dan validitas hasil ukur suatu tes.
Suatu alat ukur yang tidak realibel atau tidak vilid akan memberikan informasi
yang keliru mengenai keadaan subjek atau individu yang dikenai tes itu.
Validitas didefinisikan sebagai ukuran seberapa
cermat suatu tes melakukan fungsi ukuran. Tes hanya dapat melakukan fungsinya
dengan cermat kalau ada sesuatu yang diukurnya, untuk dikatakan vilid tes harus
mengukur sesuatu dan melakukan nya dengan cermat (Mardapi, 2004) Penekanan
definisi tersebut terletak pada seberapa cermat suatu alat ukur melakukan
fungsi ukurnya sehingga memberikan hasil ukur sesuai dengan yang hendak diukur.
Sifat vilid memberikan pengertian bahwa alat ukur
yang digunakan mampu memberikan nilai yang sungguhnya dari apa yang kita
inginkan, jika pada suatu kesempatan kita ingin memperoleh tinggi suatu meja,
penggaris merupakan alat ukur yang vilid karena dengan alat ini kita akan dapat
hasilnya.
Menggunakan alat ukur yang memang berfungsi mengukur
sesuatu aspek tetapi tidak dapat menghasilkan hasil ukur teliti akan
menimbulkan varians kesalahan. Suatu alat ukur yang validitasnya kecil sehingga
kita dapat percaya bahwa angka yang dihasilkan merupakan angka yang sebenarnya.
Inilah yang dalam classical true socre
theory yang artinya validitas instrinsik yaitu akar kuadrat rasio varians
skor murni dan varians skor tampak atau akar kuadrat reabilitas,
Perlu
dipahami sebetulnya melakukan validitas terhadap interpretasi data yang
diperoleh oleh prosedur tertentu (Cronbach,1971) dalam kaitan dengan itu.
Messick (Atkin, Black & coffey, 2001) menawarkan perspektif lain mengenai
validitas definisinya dengan suatu pengujian tentang penggunaan data penilaian
dan dari sana diperoleh persyaratan teknis. Validitas digambarkan sebagai
“suatu” penetapan evaluasi terintegrasi tentang derajat bukti empiris dan dasar
teoritis yang mendukung ketercakupan dan kesesuaian tindakan dan kesimpulan
yang berdasarkan pada skor tes atau model-model lainnya.
Jadi, validitas didalam pandangannya adalah suatu property yang sangat penting dan berguna
dibandingkan penilaian nyata. Messick (Atkin, Black & Coffey , 2001)
menekankan pada penggunaan dari validitas pada pentingnya mempertimbangkan
konsekuensi social: “ Validitas tes dan nilai social terjalin dan bahwa
konsekuensi dari evaluasi yang sengaja dan yang tidak disengaja pada beberapa
ujian terintegrasi dengan pengesahan-pengesahan tes, penafsiran dan
penggunaan”.
B.
Jenis
Validitas
1.
Validitas
isi (Content Validity)
Content Validity (validitas
isi) suatu tes harus menjawab pertanyaan “sejauh mana butir-butir tes itu
mencakup keseluruhan kawasan yang ingin diukur oleh tes tersebut”.Prosedur
validasinya tidak melibatkan perhitungan statistik apapun. Terdapat dua macam
tipe content validity, yaitu face
validity dan logical validity.
Face Validity
tercapai apabila pemeriksaan terhadap item-item tes memberi kesimpulan bahwa
tes tersebut mengukur aspek yang relavan. Dasar penyimpulannya lebih banyak
diletakkan pada common sense atau
akal sehat. Validitas tipe ini tentu tidak menjadi hal yang perlu dirisaukan
apabila suatu tes telah terbukti valid lewat pengujian validitas tipe lain yang
lebih dapat diandalkan. Dapatlah dikatakan bahwa face validity adalah tipe validitas yang paling rendah
signifikansinya.
Logical validity disebut
juga sampling validity. Tipe
validitas ini menuntut batasan yang seksama terhadap kawasan (domain) perilaku
yang di ukur dan suatu desain logis yang dapat mencakup bagian-bagian kawasan
perilaku tersebut. Sejauh mana tipe validitas ini telah terpenuhi dapat dilihat
dari cakupan butir-butir yang ada dalam tes. Logical Validity sangat penting artinya, salah satu cara agar
tuntutan validitas ini dapat terpenuhi adalah dengan menyusun suatu perencanaan
isi tes menurut blue print yang
disandarkan pada rencana pelaksanaan pelajaran atau program latihan yang akan
diujikan. Blue print tes dapat
membantu agar penulisan butir tidak meninggalkan hal penting yang harus ada
dalam tes dan sekaligus menjaganya agar tetap berada dalam batas cakupan isi
yang relavan.
2.
Validitas
Konstruksi (Construct Validity)
Construct Validity (validitas
konstruk) menunjukkan sejauh mana suatu tes mengukur konstruk teori yang menjadi
dasar penyusunan tes itu. Pengukuran validitas konstruk merupakan proses yang
terus berlanjut sejalan dengan perkembangan konsep mengenai trait (sifat) yang di ukur.
Prosedur
pengujian validitas konstruk berangkat dari hasil komputasi interkorelasi
diantara berbagai hasil tes dan kemudian diikuti oleh analisis lebih lanjut
terhadap matriks korelasi yang diperoleh, melalui berbagai metode. Diantara
metode yang sering digunakan adalah metode multitrait-multimethod
dan analisis factor.
Campbell dan Fiske (1959) mengembangkan satu pendekatan untuk
menguji validitas konstruk yang disebut multitrait-multimethod.
Validasi dengan multitrait-multimethod digunakan
dengan menggunakan lebih dari satu macam metode untuk mengukur lebih dari satu
macam trait. Suatu contoh perhitungan validitas dengan pendekatan ini
dikemukakan oleh Alen dan Yen (Azwar, 2005) dengan mengandaikan adanya dua
trait, yaitu sifat Introversi dan Neurotisme, yang masing-masing diungkap oleh
dua macam metode, yaitu pertama metode jawaban ya-tidak (YT) dan kedua metode
pilihan ganda (PG). Dalam contoh ini, terdapat empat macam tes. Hasil
pelaksanaan keempat macam tes tersebut pada sekelompok siswa kemudian
dikorelasikan satu sama lain dan koefisien-koefisien korelasinya dimasukkan
dalam suatu matriks validasi (perhatikan Tabel 1.1)
Tabel 1.1
Matriks validasi dengan
pendekatan multitrait-multimethod
|
Intoversi
YT
|
Neurotisme
YT
|
Introversi
PG
|
Neurotisme
PG
|
Intoversi
YT
|
(0.80)
|
0.25
|
0.78
|
0.19
|
Introversi
PG
|
|
(0.85)
|
0.16
|
0.72
|
Neurotisme
YT
|
|
|
(0.87)
|
0.24
|
Neurotisme
PG
|
|
|
|
(0.92)
|
Pada
matriks validasi table di atas, koefisien korelasi antara skor tes dengan
dirinya sendiri tidak dicantumkan sebagai r = 1, tetapi digantikan oleh
koefisien reliabilitasnya. Sebagai contoh, koefisien reliabilitas atas skala
introversi yang menggunakan metode YT adalah 0.8 dan dalam matriks diletakkan
dalam tanda kurung. Dasar pemikiran dalam validasi dengan pendekatan ini adalah
adanya validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua
pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau korelasi
yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun
menggunakan metode yang serupa. Pada table 1.1, dapat dijelaskan bahwa
skala-skala tersebut menunjukkan hasil ukur yang memiliki validitas konstruk
yang baik. Perhatikan bahwa skala introversi YT dan skala introversi PG
berkorelasi 0.78; skala neurotisme YT dan neurotisme PG berkorelasi sebesar
0.72.
Tampak
juga pada tabel bahwa korelasi masing-masing skala yang mengukur trait yang
berbeda, kesemuanya rendah. Dalam istilah validitas, skala-skala tersebut
konvergen ditunjukkan oleh tingginya korelasi antara skor skala-skala yang
mengukur antara skor skala-skala yang mengukur trait berbeda. Pada contoh
tersebut, validitas konvergen dan daya beda (diskriminant
validity) termasuk dalam kategori baik. Maka dapat diilustrasikan suatu
matriks validasi multitrait-multimethod yang ideal seperti tabel dibawah
berikut.
Tabel 1.2
Matriks validasi dengan
pendekatan multitrait-multimethod
A1 B1 A2 B2
|
A1
(T)
(R)
(T)
(R)
B1
(T)
(R)
(T)
A2
(T) (T)
B2
(T)
|
Keterangan:
T = Tinggi R = Rendah
T = Tinggi R = Rendah
Pada
tabel diatas huruf melambangkan trait dan angka melambangkan metode. Jadi, A1
dan A2 adalah dua skala yang mengukur trait yang sama, yaitu trait A diukur
oleh dua metode berbeda, metode 1 dan 2. A1 dan B1 adalah satu macam trait
berbeda yang diukur oleh satu metode yang sama, yaitu metode 1.A2 dan B2
melambangkan dua trait yang berbeda tetapi di ukur oleh metode yang sama, yaitu
metode 2. Korelasi antara setiap variabel dengan dirinya sendiri, yaitu , , dan masing-masing dinyatakan oleh koefisien
reliabilitas setiap variabel (dalam diagonal).
Pembuktian
validitas konstruk dilakukan dengan menggunakan analisis faktor eksploratori.
Sehubungan dengan itu, analisis faktor eksploratori digunakan untuk mengungkap
trait (sifat) atau konstruk teoritis yang hendak diukur. Dalam arti, untuk
mengetahui apakah butir-butir yang telah disusun mengukur faktor-faktor yang
membangun instrument tersebut. Field (2000), memberikan beberapa prosedur
analisis faktor eksploratori khususnya dengan program aplikasi SPSS, yaitu:
1) Metode
yang digunakan untuk melakukan analisis faktor eksploratori adalah maximum likelihood.
2) Metode
rotasi yang digunakan adalah varimax.
3) Mengukur
kesesuaian sampling dengan melihat KMO (Kaiser-Meyer-Olkin). Jika nilai KMO
> 0,5, maka sampling yang digunakan dalam uji coba instrumen sesuai.
4) Bartlett’s tes of sphericity, untuk
mengukur apakah setiap butir berkorelasi rendah (menuju nol) dengan butir yang
lainnya, dalam artian bahwa butir-butir yang disusun saling independen. Untuk
keperluan ini, digunakan signifikasi a=0.05 dan membandingkan dengan signifikan
hasil perhitungan (sig.). Jika nilai signifikansi a=0.05 lebih besar dari nilai
signifikansi hasil perhitungan, maka setiap butir memiliki korelasi yang
rendah.
5) Melihat
multikolinieritas. Jika determinan > 0,00001, maka butir-butir berkorelasi
rendah (<0,8). Itu berarti bahwa, butir-butir tersebut memiliki
multikolinieritas yang rendah. Dalam arti butir-butir tersebut mengukur faktor
yang berbeda.
6) Muatan
faktor setelah extraction yang
digunakan >0,3. Jika nilai muatan faktor >0,3, maka butir tersebut dapat
digunakan untuk mengukur faktornya.
3.
Validitas
Ada sekarang (Concurrent validity)
Validitas “ada sekarang” lebih dikenal
dengan validitas empiris. Sebuah tes dikatakan memiliki validitas empiris jika
hasilnya sesuai dengan pengalaman. Dalam hal ini tes dipasangkan dengan hasil
pengalaman. Pengalaman selalu mengenai hal yang telah lampau sehingga data
pengalaman tersebut sekarang sudah ada (ada sekarang,concurrent). Dalam
membandingkan hasil sebuah tes maka diperlukan suatu kriterium atau alat
pembanding. Maka hasil tes merupakan sesuatu yang dibandingkan. Misalnya
seorang guru ingin mengetahui apakah tes sumatif yang disusun sudah valid atau
belum. Untuk ini diperlukan sebuah kriterium masa lalu yang sekarang datanya
dimiliki (misalnya ulangan harian atau nilai ulangan sumatif yang lalu).
4.
Validitas
Ramalan (predictive validity)
Sebuah
tes dikatakan memiliki validitas prediksi atau validitas ramalan apabila mempunyai
kemampuan untuk meramalkan apa yang kan terjadi pada masa yang akan datang.
Contohnya: tes perguruan tinggi adalah sebuah tes yang diperkirakan mampu
meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan
datang. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan
tinggi-rendahnya kemampuan mengikuti kuliah. Jika nilai tesnya tinggi tentu
manjamin keberhasilannya kelak. Sebaliknya seorang calon dikatakan tidak lulus
karena memiliki nilai tes yang rendah jadi diperkirakan akan tidak mampu
mengikuti perkuliahan yang akan datang. Sebagai alat pembanding validitas
prediksi adalah nilai-nilai yang diperoleh setelah peserta tes mengikuti
pelajaran di Perguruan Tinggi. Jika ternyata siapa yang memiliki nilai tes
lebih tinggi gagal dalam ujian semester I dibandingkan dengan yang dulu nilai
tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki validitas
prediksi.
C.
Cara
menghitung Validitas
Dalam
suatu tes dikatakan valid apabila adanya suatu kesejajaran antara hasil tes
dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran tersebut
adalah teknik korelasi produk moment yang dikemukakan Pearson, terdapat dua
macam korelasi yaitu korelasi produk moment
dengan simpangan dan korelasi produk moment dengan angka besar. Rumus
keduanya adalah sebagai berikut.
Rumus korelasi produk moment dengan simpangan
Rumus
korelasi produk moment dengan angka
besar
Keterangan
rxy = Koefisien korelasi antara variable x
dan y. (x=X-dan y=Y-
=
Jumlah perkalian x dan y
x2
= Kuadrat dari x
y2 = kuadrat dari y
N = Jumlah data
Reliabilitas Asesmen
A.
Ciri
Umum Reliabilitas
Sifat
reliabel (keterandalan) dari sebuah alat ukur berkenaan dengan kemampuan alat
ukur tersebut memeberikan hasil yang konsisten dan stabil. Jika kita mengukur
panjang sebuah meja kayu dengan menggunakan sebuah meteran berulang-ulang, baik
dalam tenggang waktu yang singkat maupun tenggang waktu yang lama, maka hasil
ukur kita dapat dipastikan selalu menunjukkan angka yang sama selama panjang
meja tersebut belum berubah. Kita katakan meteran tersebut reliabel, atau
konsisten, atau dapat diandalkan, atau stabil.
Hal
yang berbeda akan kita jumpai jika kita ingin melakukan pengukuran aspek
psikologis dan sosial. Misalnya dalam pengukuran terhadap motivasi, minat,
intelegensi,sikap masyarakat mengenai suatu hal, kecendrungan mendapat
kecelakaan, sifat kepemimpinan, dan lai sebagainya. Aspek sosial psikologis
demikian tidak dapat diukur dengan kepastian dan konsistensi yang tinggi karena
hasil ukurnya tidak dapat lepas dari pengaruh hal-hal yang tidak relavan di
luar maksud pengukuran.
Reliabilitas
alat ukur dan reliabilitas hasil ukur biasanya dianggap sama. Namun
penggunaannya masing-masing perlu diperhatikan (Azwar, 2004). Konsep
reliabilitas dalam arti reliabilitas alat ukur berkaitan erat dengan kesalahan
pengukuran (error of measurement). Kesalahan
pengukuran merujuk pada sejauhmana inkonsistensi hasil pengukuran terjadi
apabila pengukuran dilakukan beberapa kali pada kelompok subjek yang sama.
Sedangkan konsep reliabilitas dalam arti hasil pengukuran berkaitan erat dengan
kesalahan dalam pengambilan sampel (sampling
error) yang merujuk pada inkonsistensi hasil pengukuran apabila pengukuran
dilakukan pada kelompok subjek yang berbeda.
Oleh
karena itu, reliabilitas alat ukur atau hasil pengukuran sering disamakan
dengan consistency, stability atau dependability, yang pada prinsipnya
menunjukkan sejauhmana pengukuran itu dapat memberikan hasil yang relatif sama
bila dilakukan pengukuran kembali terhadap subjek yang sama pada waktu yang
berbeda.
B.
Asumsi
dan Interprestasi
Skor
adalah nilai yang diberikan dari hasil jawaban peserta tes terhadap pertanyaan
dalam dalam tes tersebut, dan merupakan representasi dari suatu atribut laten.
Skor Kuantitatif yang langsung diperoleh dari hadil pengukuran dan belum diolah
merupakan skor amatan (observed scores) yang selanjutnya kita sebut dengan X.
Disamping
skor amatan, bagi setiap individu yang mendapat skor amatan X, terdapat pula
skor lain yang disebut dengan skor murni atau skor sesungguhnya, yaitu nilai kinerja
yang benar dan merupakan representasi murni dari atribut laten, yang tidak
pernah dapat diketahui besar nilainya. Skor murni (true-scores) ini selanjutnya
kita lambangkan dengan symbol T. Selanjutnya komponen kesalahan pengukuran
kitan nyatakan dengan symbol E. Hubungan antara ketiga macam komponen tersebut,
dibahas dan diuraikan oleh Allen dan Yen (1979), seperti yang di uraikan
seperti berikut:
Asumsi – 1 : X = T + E
Asumsi
ini memberi gambaran bahwa skor amatan adalah hasil penjumlahan skor murni
dengan kesalahan pengukuran . Artinya, skor amatan ditentukan oleh besarnya
skor murni dengan kesalahan pengukuran yang dilakukan. Jika kesalahan
pengukuran yang dilakukan menuju kesuatu bilangan yang kecil (menuju nol), maka
skor amatan sama dengan skor murni.
Asumsi – 2 : e(X) = T
Asumsi
ini mengatakan bahwa skor murni, T, merupakan ekspektasi (nilai harapan) dari
skor amatan, X. Secara konsep statitiska, T merupakan nilai rata-rata dari skor
amatan seseorang, jika dilakukan tes berulang-ulang, dengan asumsi pengulangan
tes tersebut saling bebas (independen) dan tak terbatas.
Asumsi – 3 : = 0
Asumsi
ini mengatakan bahwa tidak ada korelasi antara skor murni dengan kesalahan
pengukuran yang dilakukan. Dalam hal ini, dapat juga dikatakan bahwa variasi skor
murni tidak bergantung pada variasi kesalahan pengukuran yang dilakukan. Jadi,
skor murni yang tinggi tidak serta memberikan skor kesalahan pengukuran yang
positif atau negative. Begitu juga dengan skor murni yang rendah bukan
diakibatkan oleh kesalahan pengukuran yang rendah.
Asumsi – 4 =
0
|
Ilustrasi dua pengukuran memberikan dua kesalahan
pengukuran dan tidak korelasi antar kesalahan dua pengukuran
Asumsi – 4 : = 0
Asumsi ini menyatakan bahwa kesalahan pada suatu
pengukuran pertama tidak berkorelasi dengan skor murni pada pengukuran kedua
yang menggunakan tes lain. Dengan
kata lain, kesalahan pada suatu tes tidak tergantung pada skor murni yang
diperoleh seseorang pada pengukuran dengan tes lain.
Berhubungan
dengan asumsi-asumsi yang telah dikemukakan di atas, ada beberapa konsep yang
perlu diperhatikan berdasarkan teori skor murni klasikal, diantaranya adalah tes yang parallel. Dua tes dinyatakan
paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes
tersebut, yaitu T = T’, dan sebagian setiap populasi subjek yang dikenai
tes-tes tersebut, memiliki varians kesalahan yang sama besar, yaitu б = б. Pernyataan tersebut member gambaran bahwa dua tes
paralel akan memiliki rata-rata dan skor amatan yang setara dan memiliki
korelasi dengan skor amatan tes lain yang setara pula.
Dalam konsep lain berkaitan dengan dua tes yang memiliki sifat essentially t-equivalent. Dua tes
dikatakan memiliki sifat ini, apabila besarnya perbedaan skor murni setiap
individu pada kedua tes tersebut selalu tetap. Dalam konsep matematika, sifat
ini dapat dijelaskan sebagai T1 = T2 + C, dimana T1
skor murni yang diperoleh seseorang pada tes pertama dan T2
merupakan besarnya skor murni yang diperoleh seseorang pada tes kedua, serta C
merupakan suatu bilangan konstanta. Jika dua tes paralel, maka sifat ini pasti
berlaku, tetapi sebaliknya dua tes memiliki sifat essentially t-equivalent belum tentu memiliki varians kesalahan
yang sama.
Selanjutnya memberikan batasan tentang asumsi-asumsi yang mendasari
tentang proses perhitungan reliabilitas seperti yang dikemukakan di atas, Allen
& Yen (1979) juga memberikan batasan tentang enam cara dalam melakukan
interpretasi terhadap koefisien reliabilitas suatu tes, rxx’ (dibaca
rho xx’). Keenam cara tersebut diuraikan berikut.
1)
rxx’ = korelasi antara observed-scores (skor amatan) dari dua
tes yang paralel.
Dalam
interpretasi ini, apabila setiap subjek mendapat skor yang sama pada tes X dan
tes X’ yang paralel, dan terdapat varians pada masing-masing distribusi skor
amatan itu, maka kedua tes tersebut mempunyai reliabilitas sempurna (rxx’ =
1.0). Apabila tidak semua subjek mendapatkan skor yang sama pada tes X dan tes
X’, maka korelasi antara kedua tes tersebut tidak sempurna dank arena itu
reliabilitasnya pun tidak sempurna (rxx’< 1.0).
2)
rxx’
= besarnya proporsi varians X yang dijelaskan oleh hubungan linearnya dengan
X’.
Azwar (2004)
mengatakan bahwa interpretasi berasal dari penafsiran koefisien determinasi
seperti yang biasa dilakukan pada penafsiran koefisien korelasi dari Pearson. Dalam kaitan dengan ini,
besarnya kuadrat koefisien reliabilitas dapat diartikan sebagai besarnya
proporsi varians suatu tes yang dapat dijelaskan oleh variasi skor pada tes
lain yang paralel dengannya.
3)
rxx’ =
Koefisien
reliabilitas merupakan perbandingan antara varians true-scores (skor murni) dengan varians skor amatan. Dengan kata
lain, koefisien reliabilitas adalah proporsi varians skor amatan yang merupakan
varians skor murni. Jika semua perbedaan yang terjadi pada skor amatan
merefleksikan perbedaan skor murni subjek, yaitu berlaku , maka reliabilita tes tersebut adaah sempurna, yaitu rxx’
= 1. Dengan kata lain,pada reliabilitas yang sempurna, pengukuran terjadi tanpa
kesalahan. Adanya kesalahan pengukuran akan menyebabkan harga komponen lebih kecil daripada
1.0 dan semakin kecilah proporsi varians skor amatan yang merupakan varians
skor murni dan tes tersebut semakin kurang reliabel.
4)
rxx’ = r2XT
Interpretasi ini
menyatakan bahwa koefisien reliabilitas adalah sama dengan kuadrat korelasi
antara skor amatan dan skor murni. Jadi, misalnya koefisien reliabilitas rxx’
= .70, maka korelasi antara amatan skor murni adalah rxx’ = .49
5)
rxx’ = 1 – ρ2XE
Pernyataan ini
member gambaran bahwa koefisien reliabilitas merupakan selisih dari satu dengan
kuadrat korelasi antara skor amatan dengan skor kesalahan pengukuran. Semakin
besar koefisien korelasi antara skor amatan dengan skor kesalahan pengukuran,
maka semakin kecil koefisien reliabilitas suatu tes.
6)
rxx’ = 1 -
Interpretasi
ini menghubungkan reliabilitas dengan varians kesalahan dan varians skor
amatan. Apabila suatu pengukuran hanya berisi kesalahan random semata-mata,
maka varians skor-amatan merupakan varians kesalahan seluruhnya, . Dalam hal ini maka harga rxx’ = 1 – 1 = 0,
artinya tes tersebut sama sekali tidak reliabel. Kalau pengukuran tidak
mengandung kesalahan sama sekali, maka = 0 dan harga
komponen = 0, dan rxx’
= 1 – 1 = 0. Dengan kata lain, reliabilitas tes tersebut sempurna karena
pengukuran yang dilakukan tanpa kesalahan.
Varians (derajat
heterogenitas) skor amatan, , mempunyai pengaruh penting terhadap reliabilitas. Bila
diasumsikan bahwa varians skor-tampak sangat menentukan harga . Jika sampel heterogen, maka nilai akan kecil dan rxx’
= 1 - akan besar. Dengan
kata lain, estimasi yang didasarkan data dari sampel yang heterogen cenderung
menghasilkan koefisien reliabilitas yang tinggi daripada kalau didasarkan pada
data dari sampel yang homogen.
Keenam interpretasi
yang diperlukan dalam upaya lebih memahami tafsiran koefisien reliabilitas
berdasarkan konsep teori skor murni klasikal. Untuk mempermantap pemahaman
tentang keenam interpretasi tersebut, uraian berikut ditunjukkan pada bagaimana
metode yang dapat digunakan untuk melakukan estimasi koefisien reliabilitas.
C.
Faktor
yang berpengaruh terhadap Reliabilitas
Menurut
Agung (2010), ada 3 faktor yang dapat
mempengaruhi realibilitas suatu tes, yaitu panjang tes, karakteristik peserta
tes, dan proses penyelenggaraan tes.
1)
Panjang tes (banyak sedikitnya butir
tes)
Semakin
panjang tes, maka reliabilitasnya juga akan semakin tinggi. Salah satu cara
untuk meningkatkan reliabilitas dengan penambahan butir tes adalah dengan
penambahan butir tes, yaitu sebagai berikut.
Dengan
keterangan :
r
= koefisien realibilitas
= koefisien reliabilitas setelah butir tes
ditambahkan
n = ratio penambahan butir (jumlah butir
akhir dibagi jumlah butir awal)
misalnya
koefisien realibilitas awal = 0,70
jumlah butir
awal = 40
jumlah butir
akhir = 60
n
= 60 : 40 = 1,5 kemudian masukkan harga r dan n ke dalam rumus.
Berdasarkan
hasil perhitungan di atas, maka dengan menambah 20 butir tes dari jumlah butir
tes semula yaitu 40, ternyata mampu meningkatkan koefisien reliabilitas dari
0,70 menjadi 0,78 atau naik sebesar 0,08.
2) Karakteristik
peserta tes
Tes
yang diujicobakan kepada kelompok yang diambil secara acak (random), akan menunjukkan reliabilitas
yang lebih besar daripada yang di uji cobakan pada kelompok yang tidak diacak.
3) Proses
penyelenggaraan
Reliabilitas suatu tes juga dapat dipengaruhi oleh
faktor proses penyelenggaraan yaitu dapat dilihat dari kejelasan petunjuk
pengerjaan tes, ketertiban pengawas tes, dan suasana lingkungan dan tempat tes.
D.
Jenis
Koefisien Reliabilitas
1)
Metode
test-retest
Metode
test-retest dilakukan dengan menggunakan tes yang sama pada kelompok subjek
yang sama dua kali dengan member tenggang waktu yang cukup diantara kedua
penyajian tersebut. Koefisien korelasi sempurna hanya akan diperoleh bila
setiap subjek mendapat skor yang sama pada kedua penyajian dan bila distribusi
skor kelompok tersebut variansnya tidak sama dengan nol.
Untuk menghitung koefisien reliabilitas, rumus yang dapat
digunakan adalah korelasi product moment dari Pearson, dengan rumusan,
Dimana :
= Korelasi antara skor amatan tes X dan skor amatan tes Y
SX = Jumlah
skor amatan pada tes X
SY =
Jumlah skor amatan pada tes Y
S =
Jumlah kuadrat skor amatan pada tes X
S =
Jumlah kuadrat skor amatan pada tes Y
SXY = Jumlah hasil hasil kali skor amatan pada
tes X dengan skor amatan pada tes Y
N =
Banyaknya subjek
Mardapi
(2004) mengatakan bahwa perubahan sikap subjek juga dapat mempengaruhi estimasi
reliabilitas, kalau pada pelaksanaan yang kedua subjek bersikap negatif,
menolak bekerja dengan bersungguh-sungguh, atau dengan sengaja member jawaban
seenaknya, akan mengakibatkan pula korelasi yang rendah. Masalah lain dalam
prosedur test-retest adalah masalah menentukan lamanya waktu yang harus
disediakan diantara dua pelaksanaan tes. Kalau tenggang waktu terlalu singkat,
sangat mungkin terjadi carry-over effect akibat
memori, practice, atau suasana hati
subjek, atau bertambahnya informasi yang diperoleh subjek dalam hal aspek yang
diukur oleh tes yang bersangkutan. Karena itu, metode test-retest lebih cocok untuk digunakan dalam mengestimasi
reliabilitas tes yang mengukur traits
yang stabil selama tenggang waktu pelaksanaan dan tak mudah dipengaruhi carry-over effect.
2)
Metode
parallel form
Estimasi reliabilitas dengan menggunakan metode Parallel-Form dilakukan dengan menghitung
korelasi skor amatan antara dua tes amatan yang paralel yang disajikan pada
kelompok subjek yang sama. Dikarenakan hampir tidak mungkin untuk memperoleh
dua tes yang paralel, maka biasanya digunakan alternate forms sebagai pengganti. Alternate-forms adalah dua tes yang mengukur satu trait yang sama
dan disusun sedemikian rupa sehingga menjadi separalel mungkin sehingga
keduannya dapat mempunyai distribusi skor amatan dengan rata-rata, varians dan
korelasi dengan tes lain, yang sama besar.
Sebagai ilustrasi metode estimasi dengan metode ini dapat
dilihat pada gambar berikut.
|
||||||||||
|
3)
Metode
Ekuivalen
Reliabilitas
ini tidak ditentukan menggunakan korelasi tetapi menggunakan estimasi
konsistensi internal. Reliabilitas ini diukur menggunakan Kuder-Richardson,
biasanya Formula-20 (KR-20) atau Formula-21 (KR-21). Kedua rumus ini hanya
dapat dipakai untuk tes yang aitem-aitemnya diskor dikotomi, yaitu benar atau
salah, 0 atau 1. Menerapkan
banyak indikator yang dapat dioperasionalisasikan ke semua konsepsi pengukuran. Kesetaraan keandalan akan menggunakan dua instrumen untuk mengukur konsep yang
sama pada tingkat kesulitan yang sama. Reliabilitas atau
tidaknya pengujian akan ditentukan dari hubungan dua skor instrumen, atau lebih dikenal dengan hubungan
antara variabel
bebas (independen
variable) dengan variabel
terikat (dependen
variable).
Untuk mencari reliabilitas
equivalen, digunakan rumus korelasi Product Moment, yaitu mengkorelasi skor
butir pertama (X) dengan skor tes ke dua (Y). Rumus korelasi Product Moment
yang digunakan adalah sebagai berikut.
Keterangan:
korelasi antara skor tes pertama dengan skor tes ke
dua.
4)
Metode
Belah Dua (split half methods)
Metode belah dua adalah pengetes
(tester) hanya menggunakan satu set tes dicobakan satu kali. Cara
mengkorelasikan antara lain:
(a) Skor
butir tes bernomor ganjil dengan butir tes bernomor genap. Untuk itu dianjurkan
menggunakan rumus formula Flanagan sebagai berikut.
Keterangan:
= Varian skor
butir tes ganjil
= Varian skor
butir tes genap
= Varian skor
butir tes ganjil dan genap
(b) Antara
skor butir tes belahan awal dan belahan akhir. Untuk ini dianjurkan menggunakan
rumus formula Rufon sebagai berikut.
Keterangan:
d=
perbedaan (selisih) antara skor belahan awal dan belahan akhir
= varian beda
= varian
total
Hasil korelasi
tersebut baru merupakan reliabilitas separo tes. Oleh karenanya, untuk
koefesien reliabilitas seluruh tes digunakan rumus sebagai berikut.
Keterangan:
r1.1 = koefesien reliabilitas seluruh butir tes
= koefesien
korelasi antara skor setiap belahan
Cara Membelah dengan Teknik
Ganjil-Genap dan Awal-Akhir
Keterangan:
Belahan ganjil meliputi butir tes
nomor : 1,3,5,7 dan 9
Belahan genap meliputi butir tes
nomor : 2,4,6,8 dan 10
Belahan awal meliputi butir tes
nomor : 1,2,3,4 dan 5
Belahan akhir meliputi butir tes nomor : 6,7,8,9 dan 10
5)
Metode
internal consistency
Metode
internal consistency hanya memerlukan satu kali penyajian test saja (dikenal
dengan nama single-trial administration) dank arena itu masalah-masalah yang
timbul akibat penyajian yang berulang dapat dihindari. Salah satu prosedur
dalam metode internal consistency yang sangat popular adalah yang menghasilkan
estimasi reliabilitas split-half (belah dua). Tes yang akan diestimasi
reliabilitasnya dibelah menjadi dua bagian yang diusahakan parallel. Pembelahan
ini dilakukan setelah keseluruhan test sebagai kesatuan dikenakan pada para
subjek. Kemudian dapat diperoleh distribusi skor amatan subjek untuk belahan
pertama dan belahan kedua.
a.
Spearman Brown Formula
Apabila
terdapat alasan kuat untuk menganggap belahan 1 dan 2 adalah parallel, maka
estimasi reliabilitas keseluruhan test X, yaitu , dapat dilakukan dengan formula
Sprearman-Brown pada koefisien korelasi antara skor pada belahan 1 dan 2,
dengan rumusan.
= =
Dimana
:
= Koefisien reliabilitas keseluruhan test X
= Koefisien korelasi antara kedua belahan
b.
Formula Rulon
Rulon (1939) mengetengahkan suatu teknik
estimasi reliabilitas belah dua tanpa perlu berasumsi bahwa kedua belahan
mempunyai varians yang sama. Varians yang perlu diperhitungkan dalam teknik ini
adalah varians kesalahan. Menurut Rulon, varians distribusi perbedaan skor pada
belahan-belahan tes seluruhnya ditentukan oleh varians kesalahan masing-masing
belahan ini bersama-sama membentuk varians kesalahan tes keseluruhan, karena
itu varians distribusi perbedaan dapat dipakai guna mengestimasi reliabilitas
tes. Estimasi reliabilitas dapat dilakukan dengan menggunakan formula berikut:
= 1-
Dimana:
koefisien reliabilitas
tes X
= Varians distribusi perbedaan skor kedua
belahan
= Varians distribusi skor total
c.
Koefisien Alpha
Apabila
distribusi skor pada belahan 1 dan 2 tidak memiliki varians yang sama atau
tidak cukup alasan untuk menganggap kedua belahan tersebut parallel, maka
estimasi keseluruhan tes dapat diperoleh dengan menggunakan koefisien alpha (Cronbach,
1951). Rumus untuk menghitung koefisien alpha, yaitu :
Keterangan :
= varians skor subjek pada belahan j;j = 1,2
= varians skor pada keseluruhan test X
= Koefisien reliabilitas alpha
Koefisien
alpha akan memberikan nilai yang lebih kecil atau sama besar dengan nilai
reliabilitas yang sebenarnya (). Jadi akan slalu ada
kemungkinan bahwa reliabilitas tes yang sebenarnya adalah lebih tinggi daripada
koefisien alpha.
Nilai yang dihitung dengan formula Spearman-Brown
dan nilai yang diperoleh dengan koefisien alpha akan tinggi apabila korelasi
antara kedua belahan tes juga tinggi, sebaliknya apabila kedua belahan tes
berkorelasi rendah maka dan koefisien alpha juga akan rendah. Jadi,
reliabilitas Spearman-Brown dan
koefisien alpha dapat dianggap sebagai indeks internal-consistency atau indeks homogenitas tes.
Pembelahan tes tidak terbatas pada membelah tes menjadi
dua belahan saja. Adalah mungkin untuk untuk membelah tes menjadi lebih dari
dua komponen atau dua belahan. Formula koefisien alpha dapat digunakan untuk
estimasi tes yang dibelah menjadi J komponen dengan menghitung varians skor
tiap-tiap belahan serta varians skor
total. Formula dimaksud akan menghasilkan estimasi reliabilitas yang baik hanya
bila isi tes yang bersangkutan homogeny, yaitu mengukur trait tunggal. Formula
umum koefisien alpha untuk belahan yang lebih besar dari, yaitu:
a =
Dimana :
= Varians skor subjek pada keseluruhan tes X
yang terbagi atas J belahan
= Varians skor subjek pada belahan ke j;j =
1,2,3,…J.
J = Banyaknya belahan
d.
Formula Kuder-Richardson (KR 20 dan KR 21)
Jika setiap komponen atau belahan tes merupakan butir yang
diberi skor dikotomi (dichotomous), yaitu terdiri atas angka 0 dan 1, maka
formula alpha akan mengambil bentuk khusus sebagai formula Kuder-Richardson-20
(KR-20, 1973) yang disebut juga koefisien a – 20 (Cronbach, 1951) (Harun dan
Mansur).
KR
– 20 =
Dimana:
= proporsi subjek yang mendapat skor 1
pada butir i, yaitu banyaknya subjek mendapat skor 1 dibagi dengan banyaknya
seluruh subjek.
= varians skor tes X
J = banyaknya
butir tes, dalam hal ini adalah banyaknya butir tes.
Selanjutnya Kuder dan Richardson merumuskan pula formulanya
guna menghitung reliabilitas tes yang terdiri dari item dikotomi, dengan
menggunakan rata-rata proporsi subjek yang mendapat skor 1. Rumus ini dikenal
dengan nama formula Kuder-Richardson-21.
KR – 21 =
Dimana:
P = rata-rata
proporsi subjek yang mendapat skor 1 pada butir I, atau jumlah seluruh nilai dibagi dengan banyaknya
butir.
= varians skor tes
X
J = banyaknya
belahan tes, dalam hal ini adalah banyaknya item tes.
Tampak hasil koefisien reliabilitas yang diperoleh dengan
menggunakan formula KR-20 dan KR-21. Kelihatannya bahwa menggunakan formula
KR-20 memberikan koefisien reliabilitas yang lebih tinggi jika dibandingkan
dengan menggunakan formula KR-21.
Jika taraf kesukaran butir-butir () dalam tes adalah sama, maka formula KR-20 dan KR-21 akan
menghasilkan estimasi reliabilitas yang identik. Perbedaan taraf kesukaran
butir menyebabkan koefisien KR-21 lebih rendah daripada KR-20 dan merupakan
underestimasi terhadap reliabilitas tes yang sesungguhnya.
e.
Formula Krisoff untuk tes belah tiga
Kadang-kadang prosedur single trial administration sering
ditemui kasus dimana jumlah item tes tidak memungkinkan untuk dibagi dua atau
ganjil. Agar tes tersebut dapat dihitung reliabilitasnya, kadang-kadang
diperlukan untuk membagi menjadi tiga bagian. Tentunya setiap bagian tes
diasumsikan memiliki isi yang homogeny (congeneric). Untuk dapat menghitung
koefisien reliabilitas, Kristoff (1974) (Harun dan Mansur) merumuskan formula
dengan melakukan estimasi terhadap varians skor murni terlebih dahulu, kemudian
menghitung reliabilitasnya. Estimasi varians dapat dilakukan dengan menggunakan
rumus,
=
Keterangan:
= varians skor murni
= kovarians belahan j dan belahan k
Kemudian estimasi koefisien reliabilitas digunakan rumus
berikut. =
f.
Pendekatan
analisis Varians
Di samping menggunakan teknik-teknik korelasi, reliabilitas
tes dapat diestimasi melalui pendekatan analisis varians yang antara lain
diusulkan oleh Hoyt (1941) (Harun dan Mansur). Konsep dalam analisis Hyot
adalah dengan memperhatikan distribusi butir keseluruhan subjek sebagai data
yang diperoleh dari desain eksperimen factorial dua jalur tanpa replikasi, yang
dikenal pula sebagai item by subject
design. Setiap butir dianggap seakan suatu treatmen atau perlakuan yang berbeda sehingga setiap kali subject
dihadapkan pada suatu butir seakan-akan ia berada pada suatu perlakuan yang
berbeda. Dengan demikian banyaknya butir sama dengan banyaknya perlakuan. Untuk
menghitung koefisien reliabilitas dengan metode s Hyot adalah:
=
Dimana:
= rata-rata kuadrat interaksi butir dengan
subjek
= rata-rata kuadrat antar subjek
Rata-rata kuadrat (MK) dapat dihitung dengan rumus,
Mkis =
Mkis =
Dimana:
i = skor
subjek pada butir ke-i
X = jumlah skor
subjek pada seluruh butir
Y = jumlah skor
seluruh subjek pada satu butir
k = banyaknya
butir
n = banyaknya
subjek
hasil yang diperoleh dengan metode
ini, hampir sama dengan koefisien reliabilitas jika kita yang dihitung dengan
formula KR-20. Untuk butir dikotomi secara aljabar reliabilitas Hyot adalah
identik dengan KR-20.
g.
Reliabilitas
belah dua dengan panjang berbeda
Dalam melakukan pembagian tes menjadi dua bagian,
kadang-kadang jumlah butir kedua bagian tersebut tidak sama, akibatnya kita
tidak dapat menghitung estimasi reliabilitas dengan formula yang telah
dijelaskan sebelumnya, oleh karena asumsi t-equivalent tak terpenuhi. Untuk
mengatasi permasalahan tersebut, Feldt (1975) (Harun dan Mansur) memberikan
suatu formula dengan rumusan:
=
Dimana:
= Reliabilitas tes
= kovarians belahan 1 dan 2
= varians belahan
j,j = 1.2
= varians skor
total x
h.
Persamaan
Hoyt
Rumusnya
Keterangan:
r11 = reliabilitas seluruh soal
Vr = varians responden
Vs = varians sisa
Untuk
mencari reliabilitas suatu soal dilakukan dengan langkah-langkah sebagai
berikut.
Langkah 1.
Mencari jumlah kuadrat responden dengan rumus:
Keterangan:
Jk(r) = jumlah kuadrat responden
Xt = skoe total tiap responden
k = banyaknya item
N = banyaknya responden atau subyek
Langkah 2.
Mencari jumlah kuadrat item dengan rumus:
Keterangan:
Jk(i) = jumlah kuadrat item
∑B2 = jumlah kuadrat jawab benar seluruh item
(∑Xt)2 = kuadrat dari jumlah skor total.
Langkah 3.
Mencari jumlah kuadrat total dengan rumus:
Keterangan:
Jk(t) = jumlah kuadrat total
∑B = jumlah jawab benar seluruh item
∑S = jumlah jawab salah seluruh item
Langkah 4.
Mencari jumlah kuadrat sisa, dengan rumus:
Jk(s)
= Jk(t)- Jk(r)- Jk(i)
Langkah 5.
Mencari varians responden dan varians sisa dengan
tabel
F
Dalam
mencari varians ini diperlukan d.b (derajat kebebasan) dari masing-masing
sumber varians kemudian d.b ini digunakan sebagai penyebut terhadap setiap
jumlah kuadrat untuk memperoleh variansi
d.b
= banyaknya N setiap sumber variansi dikurangi 1
jadi
variansi =
langkah
6. Memasukkan ke dalam rumus r11
i.
Persamaan
product moment
Rumus korelasi produk moment dengan angka besar
Keterangan
rxy = Koefisien korelasi antara variable x
dan y. (x=X-dan y=Y-
=
Jumlah perkalian x dan y
x2
= Kuadrat dari x
y2 = kuadrat dari y
N = Jumlah data
Analisis butir dalam asesmen
a.
Tingkat
kesukaran
Menurut Koyan
(2011), taraf kesukaran tes adalah kesulitan ts dipandang dari kemampuan
peserta didik untuk menjawab soal tersebut, itu artinya tes tersebut akan lebih
banyak dapat dijawab benar oleh peserta didik yang pandai dan lebih banyak
dijawab salah oleh peserta didik yang bodoh. Tarf kesukaran tes yang baik
adalah antara 20% atau antara 30%-70%.
Cara
Menghitung Tingkat Kesukaran Tes (P)
Tingkat kesukaran tes merupakan bilangan
yang menunjukkan proporsi peserta ujian yang dapat menjawab betul butir soal
tersebut. Sedangkan tingkat kesukaran peringkat tes adalah bilangan yang
menunjukkan rata-rata proporsi tes yang dapat menjawab seluruh tes tersebut.
Rumus:
Pp =
Keterangan
:
Pp
= tingkat kesukaran perangkat tes
P =
tingkat kesukaran tiap butir
N =
banyaknya butir tes
Tingkat
ksukaran tiap butir, dihitung dengan :
Rumus
: P =
Keterangan
:
P =
tingkat kesukaran butir tes
nB =
banyaknya subyek yang menjawab soal dengan betul
n =
jumlah subyek (testee) seluruhnya
Kriteria
tingkat kesukaran (P):
0,00-0,29 = sukar
0,30-0,70 =sedang
0,71-1,00 = mudah
Tes
yang baik adalah tes yang memiliki taraf kesukaran antara 0,25-0,75
(Fernandes,1984 dalam Koyan 2011).
b.
Daya
Pembeda Tes
Dalam Koyan (2011) daya pembeda tes
adalah kemampuan tes untuk membedakan antara peserta didik yang pandai dan
bodoh, itu artinya jika tes tersebut diberikan kepada peserta didik yang
tergolong bodoh akan lebih banyak dijawab salah. Daya pembeda tes yang baik
adalah antara 20%-80% atau antara 30%-70%. Rumus untuk menghitung tingkat daya
beda tes adalah sebagai berikut:
Dp
=
Dp = Daya beda tes
N = jumlah butir tes
Rumus
untuk menghitung daya beda butir tes adalah sebagai berikut :
DB
= - atau D= PA - PB
Keterangan
nBA=
jumlah subyek yang menjawab benar pada kelompok atas
nBB
= jumlah subyek yang menjawab benar pada kelompok bawah
nA
= jumlah subyek kelompok atas
nB=
jumlah subyek kelompok bawah
Kriteria
Daya Beda (D) :
0,00 – 0,19 = kurang baik
0,20 -0,39
= cukup baik
0,40 – 0,70 = Baik
0,71-1,00
= sangat baik
c.
Analisis
Pengecoh
Menurut Koyan (2011)
pengecoh atau distractor yang baik adalah pengecoh yang dapat mengecoh peserta
didik, itu artinya pengecoh tersebut dipilih oleh 2 % atau 3 % dari peserta
tes. Pengecoh yang efektif ialah pengecoh yang dipilih oleh minimal 2-3% dari
pengikut tes. Berikut ini merupakan contoh cara menghitung efektivitas pengecoh
untuk 1 butir tes objektif yang memiliki 4 option a, b, c, dan d
Pilihan
|
A*
|
B
|
C
|
D
|
|
*kunci
|
Kelompok atas
|
5
|
4
|
0
|
1
|
10
|
|
Kelompok bawah
|
3
|
3
|
0
|
4
|
10
|
|
Jumlah
|
8
|
7
|
0
|
5
|
20
|
|
Kunci jawaban betul untuk soal di atas
adalah pilihan jawaban (a). pilihan jawaban b, c, dan d sebagai pengecoh. Pada
umumnya sebuah pengecoh yang baik dapat mengundang jawaban lebih besar
jumlahnya pada peserta didik kelompok lemah, dan lebih sedikit pada kelompok
pandai. Pilihan jawabn b, sebagai pengecoh tidak efektif, sebab menarik jawaban
lebih banyak dari kelompok peserta didik pandai. Kejadian itu disebabkan karena
distractor (b) membingungkan. Pilihan jawaban c sama sekali tidak efektif,
karena tidak dapat menarik jawaban seorangpun. Pilihan jawaban d dipandang
memenuhi fungsinya, sebab dapat mengundang jawaban oleh peserta didik kelompok
pandai yang lebih sedikit.
d.
Analisis
Butir Soal Menurut Teori Respons Butir
Telah diuraikan diatas, bahwa analisis
butir soal yang digunakan berdasarkan pendekatan lteori tes klasik, bekerja
dengan asumsi bahwa:
1) Tidak
ada toleransi antara skor yang sebenarnya dan skor kesalahan,
2) Sepanjang
tidak terjadi kesalahan sistematik, maka tidak ada kolerasi antara kesalahan
acak pada suatu pengukuran dengan kesalahan acak pada ulangan pengukuran,
3) Besarnya
rerata kesalahan acak sama dengan nol.
Penggunaan
teori klasik dalam menganalisis butir soal, memiliki beberapa kelemahan sebagai
berikut :
1) Statistic
butir tes berupa tingkat kesukaran dan daya beda butir soal, sangat tergantung
pada karakteristik peserta tes. Jika kemampuan peserta rendah, maka tingkat
kesukaran butir soal akan tinggi.
2) Etimasi
kemampuan peserta tergantung kepada butir soal yang diujikan. Bila indeks
kesukaran kecil, etimasi kemampuan sesorang akan tinggi, demikian pula
sebaliknya.
3) Estimasi
skor kesalahan berlaku untuk semua peserta tes. Kesalahan untuk tiap peserta
tes besarnya sama, yang dinyatakan dalam bentuk kesalahan baku pengukuran.
4) Tidak
ada informasi tentang respons setiap peserta ujian terhadap tiap butir soal.
e.
Analisis
Hasil Tes dan Tindak Lanjutnya
Bagi
para siswa, hasil tes yang diselenggarakan oleh guru mempunyai banyak kegunaan,
antara lain adalah :
1) Dapat
mengetahui apakah ia sudah menguasai bahan yang disajikan oleh guru,
2) Dapat
mengetahui bagian mana yang belum dikuasainya sehingga ia berusaha untuk
mempelajarinya lagi sebagai upaya perbaikan,
3) Dapat
menjadi penguatan bagi siswa yang sudah memperoleh skor tinggi dan menjadi
dorongan untuk belajar lagi,
4) Dapat
menjadi diagnosis bagi siswa,
Untuk dapat
memanfaatkan hasil ujian secara efektif, perlu dilakukan analisis terhadap
hasil tes/hasil ujian yang telah dicapai oleh para siswa. Caranya dengan
membuat tabel spesifikasi yang mampu menunjukkan konsep/subkonsep atau
tema/subtema kompetensi dasar mana yang belum dikuasai siswa.
Contoh tabel
spesifikasi hasil analisis hasil tes untuk mata pelajaran Biologi
Nama Siswa : Dika Kelas :1 IA
Kompetensi Dasar
|
jumlah Butir
|
Jumlah yang
betul
|
Persen
pencapaian
|
Penguasaan
|
Keterangan
|
1. Mendeskripsikan
keterampilan dasar dan keterampilan sains
|
20
|
15
|
75
|
V
|
Menguasai
seluruh keterampilan dasar IPA, dan menguasai keterampilan proses IPA berupa
mentabulasi data, membuat grafik, tetapi belum menguasai proses IPA dalam hal
melakukan inferensi, prediksi, dan menentukan variabel bebas dan variabel
|
1. Mengenal
langkah-langkah-langkah pemecahan masalah melalui metode eksperimen
(percobaan)
|
30
|
15
|
50
|
15
|
Hanya
menguasai kemampuan merumuskan tujuan dan manfaat percobaan, menentukan
treament, dan menentukan kelompok kontrol. Belum menguasai kemampuan
merumuskan persoalan, memilih hal-hal yang harus dimuat dalam tinjauan
pustaka, merumuskan hipotesis, dan menyiapkan tabel hasil percobaan.
|
Standar
Keberhasilan : batas penguasaan 75 Sumber
: Mardapi (2004)
Berdasarkan tabel,
dampaknya Diana masih terbatas menguasai kemampuan mendeskripsikan keterampilan
dasar dan keterampilan sains dan gagal menguasai eksperimen (percobaan). Dengan
demikian, guru harus mengetahui persis dalam hal ini Diana perlu mendapat
bimbingan melalui program perbaikan atau remidi.
f.
Bentuk
Laporan
Laporan
hasil belajar siswa yang baik seharusnya mencangkup aspek kognitif, aspek
psikomotorik, dan aspek afektif. Berikut ini macam-macam laporan (dalam Harun,
2007 :242) adalah :
1)
Laporan
untuk Siswa
Untuk
menginformasikan hasil belajar siswa dapat diperoleh melalui ujian, kuesioner
atau angket, wawancara, atau pengamatan. Informasi hasil ujian dapat
dimanfaatkan siswa untuk :
a. Mengetahui
kemajuan hasil belajar diri,
b. Mengetahui
konsep-konsep atau teori-teori yang belum dikuasai,
c. Memotivasi
diri untuk belajar lebih baik,
d. Memperbaiki
strategi belajar.
Selanjutnya dalam memberi
informasi yang akurat dapat dimanfaatkan siswa seoptimal mungkin, maka laporan
yang diberikan kepada siswa harus berisi tentang :
a. Hasil
pencapaian belajar siswa yang dinyatakan dalam bentuk kompetensi dasar yang
sudah dicapai dan belum dicapai,
b. Kekuatan
dan kelemahan siswa dalam semua mata pelajaran,
c. Minat
siswa pada masing-masing mata pelajaran.
Selain itu juga laporan
harus menggunakan bahasa yang dapt memotivasi siswa untuk belajar lebih
baik.Sehingga format laporan digunakan dalam istilah hasil belajar.
2)
Laporan
untuk Orang tua
Untuk
informasi hasil ujian dimanfaatkan oleh orang tua untuk memotivasi anaknya agar
hasil belajarnya lebih baik dan strategi dalam membantu anaknya belajar.
Informasi ini digunakan orang tua untuk :
a. Membantu
anaknya belajar,
b. Memotivasi
anaknya belajar,
c. Membantu
sekolah untuk meningkatkan hasil belajar siswa,
d. Membantu
sekolah dalam melengkapi fasilitas belajar.
Agar
dapat memenuhi kebutuhan orang tua dalam meningkatkan proses pembelajaran,
bentuk laporan hasil ujian harus mencangkup tiga aspek, yaitu : kognitif,
psikomotorik, dan afektif, dan meliputi : kelemahan dan kekuatan siswa,
keterampilan siswa dalam melaksanakan tugas, dan minat siswa terhadap mata
pelajaran tertentu.
3)
Laporan
untuk Guru dan Sekolah
Laporan hasil ujian untuk guru dan
kepala sekolah harus mencangkup semua aspek kognitif, psikomotor, dan afektif.
Guru memerlukan informasi yang lebih global untuk masing-masing kelas yang
diajar, sedangkan kepala sekolah memerlukan informasi global untuk semua kelas
dalam satu sekolah, khususnya tentang hasil belajar.
0 komentar:
Posting Komentar