Rabu, 02 Januari 2013

Validitas Asesmen



Pada sebagian orang, isu kesahihan (validitas) dan keandalan (reliabilitas) adalah inti dari diskusi-diskusi tentang penilaian. Isu-isu teknis adalah hal penting dalam mempertimbangkan semua bentuk penilaian termasuk yang terjadi setiap hari di dalam kelas (AERA, APA, dan NCNM, 1999). Meskipun prinsip-prinsip yang dianut sama namun secara operasional tampak ada perbedaan berdasarkan pada tujuan penilaian sumatif dan formatif.
Isu tentang validitas mengarah pada apakah penilaian mengukur atau mengungkapkan apa yang hendak diukur. Atkin, Black, & coffey (2001) mengatakan bahwa kesahihan memiliki dimensi termasuk tiga yang akan dibahas yakni kesahihan isi (content validity), kesahihan konstruk ( construct validity) dan kesahihan intruksional (intrutional validity). Kesahihan isi mengacu pada tingkatan dimana suatu penilaian mampu mengukur area isi yang diharapkan. Kesahihan konstruk mengacu pada tingkatan dimana penilaian mengukur konstruk teori atau kemampuan yang diharapkan. Suatu penilaian menggambarkan kesahihan instruksional, apabila materi atau isi sepadan dengan apa yang benar-benar diajarkan.
Penilaian memerlukan tujuan yang sepadan dan jelas ketika mengumpulkan data, para guru dan para siswa perlu mempertimbangkan jika informasi menunjukkan dengan teliti apa yang mereka inginkan untuk diringkas, sesuai dengan mata pelajaran yang diajarkan dan mencerminkan setiap konsekuensi social yang sengaja sebagai hasil dari penilaian. Penilaian formatif yang tidak valid dapat menuju kepada tindakan koreksi atau salah, atau tindakan yang lalai dimana hal tersebut justru diperlukan.
A.    Ciri Umum dan Interpretasi Validitas
Para ahli psikometri telah menetapkan kriteria bagi suatu alat ukur psikologis untuk dapat dinyatakan sebagai alat ukur yang baik dan mampu memberikan informasi yang sesuai dengan tujuan diadakannya suatu pengukuran, kriterianya valid dan reliabel. Sifat reliabel dan vilid diperhatikan oleh tingginya reabilitas dan validitas hasil ukur suatu tes. Suatu alat ukur yang tidak realibel atau tidak vilid akan memberikan informasi yang keliru mengenai keadaan subjek atau individu yang dikenai tes itu.
Validitas didefinisikan sebagai ukuran seberapa cermat suatu tes melakukan fungsi ukuran. Tes hanya dapat melakukan fungsinya dengan cermat kalau ada sesuatu yang diukurnya, untuk dikatakan vilid tes harus mengukur sesuatu dan melakukan nya dengan cermat (Mardapi, 2004) Penekanan definisi tersebut terletak pada seberapa cermat suatu alat ukur melakukan fungsi ukurnya sehingga memberikan hasil ukur sesuai dengan yang hendak diukur.
Sifat vilid memberikan pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang sungguhnya dari apa yang kita inginkan, jika pada suatu kesempatan kita ingin memperoleh tinggi suatu meja, penggaris merupakan alat ukur yang vilid karena dengan alat ini kita akan dapat hasilnya.
Menggunakan alat ukur yang memang berfungsi mengukur sesuatu aspek tetapi tidak dapat menghasilkan hasil ukur teliti akan menimbulkan varians kesalahan. Suatu alat ukur yang validitasnya kecil sehingga kita dapat percaya bahwa angka yang dihasilkan merupakan angka yang sebenarnya. Inilah yang dalam classical true socre theory yang artinya validitas instrinsik yaitu akar kuadrat rasio varians skor murni dan varians skor tampak atau akar kuadrat reabilitas,
 Perlu dipahami sebetulnya melakukan validitas terhadap interpretasi data yang diperoleh oleh prosedur tertentu (Cronbach,1971) dalam kaitan dengan itu. Messick (Atkin, Black & coffey, 2001) menawarkan perspektif lain mengenai validitas definisinya dengan suatu pengujian tentang penggunaan data penilaian dan dari sana diperoleh persyaratan teknis. Validitas digambarkan sebagai “suatu” penetapan evaluasi terintegrasi tentang derajat bukti empiris dan dasar teoritis yang mendukung ketercakupan dan kesesuaian tindakan dan kesimpulan yang berdasarkan pada skor tes atau model-model lainnya.
Jadi, validitas didalam pandangannya adalah suatu property yang sangat penting dan berguna dibandingkan penilaian nyata. Messick (Atkin, Black & Coffey , 2001) menekankan pada penggunaan dari validitas pada pentingnya mempertimbangkan konsekuensi social: “ Validitas tes dan nilai social terjalin dan bahwa konsekuensi dari evaluasi yang sengaja dan yang tidak disengaja pada beberapa ujian terintegrasi dengan pengesahan-pengesahan tes, penafsiran dan penggunaan”.


B.     Jenis Validitas
1.      Validitas isi (Content Validity)
Content Validity (validitas isi) suatu tes harus menjawab pertanyaan “sejauh mana butir-butir tes itu mencakup keseluruhan kawasan yang ingin diukur oleh tes tersebut”.Prosedur validasinya tidak melibatkan perhitungan statistik apapun. Terdapat dua macam tipe content validity, yaitu face validity dan logical validity.
Face Validity tercapai apabila pemeriksaan terhadap item-item tes memberi kesimpulan bahwa tes tersebut mengukur aspek yang relavan. Dasar penyimpulannya lebih banyak diletakkan pada common sense atau akal sehat. Validitas tipe ini tentu tidak menjadi hal yang perlu dirisaukan apabila suatu tes telah terbukti valid lewat pengujian validitas tipe lain yang lebih dapat diandalkan. Dapatlah dikatakan bahwa face validity adalah tipe validitas yang paling rendah signifikansinya.
Logical validity disebut juga sampling validity. Tipe validitas ini menuntut batasan yang seksama terhadap kawasan (domain) perilaku yang di ukur dan suatu desain logis yang dapat mencakup bagian-bagian kawasan perilaku tersebut. Sejauh mana tipe validitas ini telah terpenuhi dapat dilihat dari cakupan butir-butir yang ada dalam tes. Logical Validity sangat penting artinya, salah satu cara agar tuntutan validitas ini dapat terpenuhi adalah dengan menyusun suatu perencanaan isi tes menurut blue print yang disandarkan pada rencana pelaksanaan pelajaran atau program latihan yang akan diujikan. Blue print tes dapat membantu agar penulisan butir tidak meninggalkan hal penting yang harus ada dalam tes dan sekaligus menjaganya agar tetap berada dalam batas cakupan isi yang relavan.

2.      Validitas Konstruksi (Construct Validity)
Construct Validity (validitas konstruk) menunjukkan sejauh mana suatu tes mengukur konstruk teori yang menjadi dasar penyusunan tes itu. Pengukuran validitas konstruk merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep  mengenai trait (sifat) yang di ukur.
Prosedur pengujian validitas konstruk berangkat dari hasil komputasi interkorelasi diantara berbagai hasil tes dan kemudian diikuti oleh analisis lebih lanjut terhadap matriks korelasi yang diperoleh, melalui berbagai metode. Diantara metode yang sering digunakan adalah metode multitrait-multimethod dan analisis factor.
      Campbell dan Fiske (1959) mengembangkan satu pendekatan untuk menguji validitas konstruk yang disebut multitrait-multimethod. Validasi dengan multitrait-multimethod digunakan dengan menggunakan lebih dari satu macam metode untuk mengukur lebih dari satu macam trait. Suatu contoh perhitungan validitas dengan pendekatan ini dikemukakan oleh Alen dan Yen (Azwar, 2005) dengan mengandaikan adanya dua trait, yaitu sifat Introversi dan Neurotisme, yang masing-masing diungkap oleh dua macam metode, yaitu pertama metode jawaban ya-tidak (YT) dan kedua metode pilihan ganda (PG). Dalam contoh ini, terdapat empat macam tes. Hasil pelaksanaan keempat macam tes tersebut pada sekelompok siswa kemudian dikorelasikan satu sama lain dan koefisien-koefisien korelasinya dimasukkan dalam suatu matriks validasi (perhatikan Tabel 1.1)
Tabel 1.1
Matriks validasi dengan pendekatan multitrait-multimethod

Intoversi
YT
Neurotisme
YT
Introversi
PG
Neurotisme
PG
Intoversi
YT
(0.80)
0.25
0.78
0.19
Introversi
PG

(0.85)
0.16
0.72
Neurotisme
YT


(0.87)
0.24
Neurotisme
PG



(0.92)

Pada matriks validasi table di atas, koefisien korelasi antara skor tes dengan dirinya sendiri tidak dicantumkan sebagai r = 1, tetapi digantikan oleh koefisien reliabilitasnya. Sebagai contoh, koefisien reliabilitas atas skala introversi yang menggunakan metode YT adalah 0.8 dan dalam matriks diletakkan dalam tanda kurung. Dasar pemikiran dalam validasi dengan pendekatan ini adalah adanya validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa. Pada table 1.1, dapat dijelaskan bahwa skala-skala tersebut menunjukkan hasil ukur yang memiliki validitas konstruk yang baik. Perhatikan bahwa skala introversi YT dan skala introversi PG berkorelasi 0.78; skala neurotisme YT dan neurotisme PG berkorelasi sebesar 0.72.
Tampak juga pada tabel bahwa korelasi masing-masing skala yang mengukur trait yang berbeda, kesemuanya rendah. Dalam istilah validitas, skala-skala tersebut konvergen ditunjukkan oleh tingginya korelasi antara skor skala-skala yang mengukur antara skor skala-skala yang mengukur trait berbeda. Pada contoh tersebut, validitas konvergen dan daya beda (diskriminant validity) termasuk dalam kategori baik. Maka dapat diilustrasikan suatu matriks validasi multitrait-multimethod yang ideal seperti tabel dibawah berikut.
Tabel 1.2
Matriks validasi dengan pendekatan multitrait-multimethod
A1                            B1                             A2                             B2
A1                                                                                  
                (T)                            (R)                               (T)                                 (R)
B1                                                                                              
                                               (T)                            (R)                             (T)
A2                                                                                                    
                                                                                 (T)                             (T)
B2                                                                                                             
                                                                                                                   (T)
                                                                                                                
Keterangan:
T = Tinggi  R = Rendah
Pada tabel diatas huruf melambangkan trait dan angka melambangkan metode. Jadi, A1 dan A2 adalah dua skala yang mengukur trait yang sama, yaitu trait A diukur oleh dua metode berbeda, metode 1 dan 2. A1 dan B1 adalah satu macam trait berbeda yang diukur oleh satu metode yang sama, yaitu metode 1.A2 dan B2 melambangkan dua trait yang berbeda tetapi di ukur oleh metode yang sama, yaitu metode 2. Korelasi antara setiap variabel dengan dirinya sendiri, yaitu , ,  dan  masing-masing dinyatakan oleh koefisien reliabilitas setiap variabel (dalam diagonal).
Pembuktian validitas konstruk dilakukan dengan menggunakan analisis faktor eksploratori. Sehubungan dengan itu, analisis faktor eksploratori digunakan untuk mengungkap trait (sifat) atau konstruk teoritis yang hendak diukur. Dalam arti, untuk mengetahui apakah butir-butir yang telah disusun mengukur faktor-faktor yang membangun instrument tersebut. Field (2000), memberikan beberapa prosedur analisis faktor eksploratori khususnya dengan program aplikasi SPSS, yaitu:
1)      Metode yang digunakan untuk melakukan analisis faktor eksploratori adalah maximum likelihood.
2)      Metode rotasi yang digunakan adalah varimax.
3)      Mengukur kesesuaian sampling dengan melihat KMO (Kaiser-Meyer-Olkin). Jika nilai KMO > 0,5, maka sampling yang digunakan dalam uji coba instrumen sesuai.
4)      Bartlett’s tes of sphericity, untuk mengukur apakah setiap butir berkorelasi rendah (menuju nol) dengan butir yang lainnya, dalam artian bahwa butir-butir yang disusun saling independen. Untuk keperluan ini, digunakan signifikasi a=0.05 dan membandingkan dengan signifikan hasil perhitungan (sig.). Jika nilai signifikansi a=0.05 lebih besar dari nilai signifikansi hasil perhitungan, maka setiap butir memiliki korelasi yang rendah.
5)      Melihat multikolinieritas. Jika determinan > 0,00001, maka butir-butir berkorelasi rendah (<0,8). Itu berarti bahwa, butir-butir tersebut memiliki multikolinieritas yang rendah. Dalam arti butir-butir tersebut mengukur faktor yang berbeda.
6)      Muatan faktor setelah extraction yang digunakan >0,3. Jika nilai muatan faktor >0,3, maka butir tersebut dapat digunakan untuk mengukur faktornya.



3.      Validitas Ada sekarang (Concurrent validity)
Validitas “ada sekarang” lebih dikenal dengan validitas empiris. Sebuah tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Dalam hal ini tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah ada (ada sekarang,concurrent). Dalam membandingkan hasil sebuah tes maka diperlukan suatu kriterium atau alat pembanding. Maka hasil tes merupakan sesuatu yang dibandingkan. Misalnya seorang guru ingin mengetahui apakah tes sumatif yang disusun sudah valid atau belum. Untuk ini diperlukan sebuah kriterium masa lalu yang sekarang datanya dimiliki (misalnya ulangan harian atau nilai ulangan sumatif yang lalu).
4.      Validitas Ramalan (predictive validity)
Sebuah tes dikatakan memiliki validitas prediksi atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan apa yang kan terjadi pada masa yang akan datang. Contohnya: tes perguruan tinggi adalah sebuah tes yang diperkirakan mampu meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan datang. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi-rendahnya kemampuan mengikuti kuliah. Jika nilai tesnya tinggi tentu manjamin keberhasilannya kelak. Sebaliknya seorang calon dikatakan tidak lulus karena memiliki nilai tes yang rendah jadi diperkirakan akan tidak mampu mengikuti perkuliahan yang akan datang. Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang diperoleh setelah peserta tes mengikuti pelajaran di Perguruan Tinggi. Jika ternyata siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan yang dulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki validitas prediksi.

C.    Cara menghitung Validitas
Dalam suatu tes dikatakan valid apabila adanya suatu kesejajaran antara hasil tes dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran tersebut adalah teknik korelasi produk moment  yang dikemukakan Pearson, terdapat dua macam korelasi yaitu korelasi produk moment dengan simpangan dan korelasi produk moment dengan angka besar. Rumus keduanya adalah sebagai berikut.
Rumus korelasi produk moment dengan simpangan

Rumus korelasi produk moment dengan angka besar

Keterangan
rxy        = Koefisien korelasi antara variable x dan y. (x=X-dan y=Y-
     = Jumlah perkalian x dan y
x2         = Kuadrat dari x
y2            = kuadrat dari y
N         = Jumlah data

Reliabilitas Asesmen
A.    Ciri Umum Reliabilitas
Sifat reliabel (keterandalan) dari sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut memeberikan hasil yang konsisten dan stabil. Jika kita mengukur panjang sebuah meja kayu dengan menggunakan sebuah meteran berulang-ulang, baik dalam tenggang waktu yang singkat maupun tenggang waktu yang lama, maka hasil ukur kita dapat dipastikan selalu menunjukkan angka yang sama selama panjang meja tersebut belum berubah. Kita katakan meteran tersebut reliabel, atau konsisten, atau dapat diandalkan, atau stabil.
Hal yang berbeda akan kita jumpai jika kita ingin melakukan pengukuran aspek psikologis dan sosial. Misalnya dalam pengukuran terhadap motivasi, minat, intelegensi,sikap masyarakat mengenai suatu hal, kecendrungan mendapat kecelakaan, sifat kepemimpinan, dan lai sebagainya. Aspek sosial psikologis demikian tidak dapat diukur dengan kepastian dan konsistensi yang tinggi karena hasil ukurnya tidak dapat lepas dari pengaruh hal-hal yang tidak relavan di luar maksud pengukuran.
Reliabilitas alat ukur dan reliabilitas hasil ukur biasanya dianggap sama. Namun penggunaannya masing-masing perlu diperhatikan (Azwar, 2004). Konsep reliabilitas dalam arti reliabilitas alat ukur berkaitan erat dengan kesalahan pengukuran (error of measurement). Kesalahan pengukuran merujuk pada sejauhmana inkonsistensi hasil pengukuran terjadi apabila pengukuran dilakukan beberapa kali pada kelompok subjek yang sama. Sedangkan konsep reliabilitas dalam arti hasil pengukuran berkaitan erat dengan kesalahan dalam pengambilan sampel (sampling error) yang merujuk pada inkonsistensi hasil pengukuran apabila pengukuran dilakukan pada kelompok subjek yang berbeda.
Oleh karena itu, reliabilitas alat ukur atau hasil pengukuran sering disamakan dengan consistency, stability atau dependability, yang pada prinsipnya menunjukkan sejauhmana pengukuran itu dapat memberikan hasil yang relatif sama bila dilakukan pengukuran kembali terhadap subjek yang sama pada waktu yang berbeda.

B.     Asumsi dan Interprestasi
Skor adalah nilai yang diberikan dari hasil jawaban peserta tes terhadap pertanyaan dalam dalam tes tersebut, dan merupakan representasi dari suatu atribut laten. Skor Kuantitatif yang langsung diperoleh dari hadil pengukuran dan belum diolah merupakan skor amatan (observed scores) yang selanjutnya kita sebut dengan X.
Disamping skor amatan, bagi setiap individu yang mendapat skor amatan X, terdapat pula skor lain yang disebut dengan skor murni atau skor sesungguhnya, yaitu nilai kinerja yang benar dan merupakan representasi murni dari atribut laten, yang tidak pernah dapat diketahui besar nilainya. Skor murni (true-scores) ini selanjutnya kita lambangkan dengan symbol T. Selanjutnya komponen kesalahan pengukuran kitan nyatakan dengan symbol E. Hubungan antara ketiga macam komponen tersebut, dibahas dan diuraikan oleh Allen dan Yen (1979), seperti yang di uraikan seperti berikut:
Asumsi – 1 : X = T + E
Asumsi ini memberi gambaran bahwa skor amatan adalah hasil penjumlahan skor murni dengan kesalahan pengukuran . Artinya, skor amatan ditentukan oleh besarnya skor murni dengan kesalahan pengukuran yang dilakukan. Jika kesalahan pengukuran yang dilakukan menuju kesuatu bilangan yang kecil (menuju nol), maka skor amatan sama dengan skor murni.
Asumsi – 2 : e(X) = T
Asumsi ini mengatakan bahwa skor murni, T, merupakan ekspektasi (nilai harapan) dari skor amatan, X. Secara konsep statitiska, T merupakan nilai rata-rata dari skor amatan seseorang, jika dilakukan tes berulang-ulang, dengan asumsi pengulangan tes tersebut saling bebas (independen) dan tak terbatas.
Asumsi – 3 :  = 0
Asumsi ini mengatakan bahwa tidak ada korelasi antara skor murni dengan kesalahan pengukuran yang dilakukan. Dalam hal ini, dapat juga dikatakan bahwa variasi skor murni tidak bergantung pada variasi kesalahan pengukuran yang dilakukan. Jadi, skor murni yang tinggi tidak serta memberikan skor kesalahan pengukuran yang positif atau negative. Begitu juga dengan skor murni yang rendah bukan diakibatkan oleh kesalahan pengukuran yang rendah.
Asumsi – 4 = 0


      T            T
 
Asumsi ini memberi gambaran bahwa jika pengukuran dilakukan dua kali, pengukuran pertama memberikan kesalahan pengukuran  dan pengukuran kedua memberikan kesalahan pengukuran , maka tidak ada korelasi antara kedua kesalahan pengukuran tersebut. Dengan kata lain, kesalahan pengukuran pertama tidak mempengaruhi pengukuran kedua atau sebaliknya.


Ilustrasi dua pengukuran memberikan dua kesalahan pengukuran dan tidak korelasi antar kesalahan dua pengukuran
Asumsi – 4 : = 0
            Asumsi ini menyatakan bahwa kesalahan pada suatu pengukuran pertama tidak berkorelasi dengan skor murni pada pengukuran kedua yang menggunakan tes lain. Dengan kata lain, kesalahan pada suatu tes tidak tergantung pada skor murni yang diperoleh seseorang pada pengukuran dengan tes lain.
Berhubungan dengan asumsi-asumsi yang telah dikemukakan di atas, ada beberapa konsep yang perlu diperhatikan berdasarkan teori skor murni klasikal, diantaranya adalah tes yang parallel. Dua tes dinyatakan paralel apabila skor murni dari setiap subjek adalah sama pada kedua tes tersebut, yaitu T = T’, dan sebagian setiap populasi subjek yang dikenai tes-tes tersebut, memiliki varians kesalahan yang sama besar, yaitu б = б. Pernyataan tersebut member gambaran bahwa dua tes paralel akan memiliki rata-rata dan skor amatan yang setara dan memiliki korelasi dengan skor amatan tes lain yang setara pula.
Dalam  konsep lain berkaitan dengan dua tes yang memiliki sifat essentially t-equivalent. Dua tes dikatakan memiliki sifat ini, apabila besarnya perbedaan skor murni setiap individu pada kedua tes tersebut selalu tetap. Dalam konsep matematika, sifat ini dapat dijelaskan sebagai T1 = T2 + C, dimana T1 skor murni yang diperoleh seseorang pada tes pertama dan T2 merupakan besarnya skor murni yang diperoleh seseorang pada tes kedua, serta C merupakan suatu bilangan konstanta. Jika dua tes paralel, maka sifat ini pasti berlaku, tetapi sebaliknya dua tes memiliki sifat essentially t-equivalent belum tentu memiliki varians kesalahan yang sama.
            Selanjutnya memberikan batasan tentang asumsi-asumsi yang mendasari tentang proses perhitungan reliabilitas seperti yang dikemukakan di atas, Allen & Yen (1979) juga memberikan batasan tentang enam cara dalam melakukan interpretasi terhadap koefisien reliabilitas suatu tes, rxx’ (dibaca rho xx’). Keenam cara tersebut diuraikan berikut.
1)      rxx’ = korelasi antara observed-scores (skor amatan) dari dua tes yang paralel.
Dalam interpretasi ini, apabila setiap subjek mendapat skor yang sama pada tes X dan tes X’ yang paralel, dan terdapat varians pada masing-masing distribusi skor amatan itu, maka kedua tes tersebut mempunyai reliabilitas sempurna (rxx’ = 1.0). Apabila tidak semua subjek mendapatkan skor yang sama pada tes X dan tes X’, maka korelasi antara kedua tes tersebut tidak sempurna dank arena itu reliabilitasnya pun tidak sempurna (rxx’< 1.0).
2)      rxx’ = besarnya proporsi varians X yang dijelaskan oleh hubungan linearnya dengan X’.
Azwar (2004) mengatakan bahwa interpretasi berasal dari penafsiran koefisien determinasi seperti yang biasa dilakukan pada penafsiran koefisien korelasi dari Pearson. Dalam kaitan dengan ini, besarnya kuadrat koefisien reliabilitas dapat diartikan sebagai besarnya proporsi varians suatu tes yang dapat dijelaskan oleh variasi skor pada tes lain yang paralel dengannya.
3)      rxx’ =
Koefisien reliabilitas merupakan perbandingan antara varians true-scores (skor murni) dengan varians skor amatan. Dengan kata lain, koefisien reliabilitas adalah proporsi varians skor amatan yang merupakan varians skor murni. Jika semua perbedaan yang terjadi pada skor amatan merefleksikan perbedaan skor murni subjek, yaitu berlaku , maka reliabilita tes tersebut adaah sempurna, yaitu rxx’ = 1. Dengan kata lain,pada reliabilitas yang sempurna, pengukuran terjadi tanpa kesalahan. Adanya kesalahan pengukuran akan menyebabkan harga komponen  lebih kecil daripada 1.0 dan semakin kecilah proporsi varians skor amatan yang merupakan varians skor murni dan tes tersebut semakin kurang reliabel.
4)      rxx’ = r2XT
Interpretasi ini menyatakan bahwa koefisien reliabilitas adalah sama dengan kuadrat korelasi antara skor amatan dan skor murni. Jadi, misalnya koefisien reliabilitas rxx’ = .70, maka korelasi antara amatan skor murni adalah rxx’ = .49
5)      rxx’ = 1 – ρ2XE
Pernyataan ini member gambaran bahwa koefisien reliabilitas merupakan selisih dari satu dengan kuadrat korelasi antara skor amatan dengan skor kesalahan pengukuran. Semakin besar koefisien korelasi antara skor amatan dengan skor kesalahan pengukuran, maka semakin kecil koefisien reliabilitas suatu tes.
6)      rxx’ = 1 -
Interpretasi ini menghubungkan reliabilitas dengan varians kesalahan dan varians skor amatan. Apabila suatu pengukuran hanya berisi kesalahan random semata-mata, maka varians skor-amatan merupakan varians kesalahan seluruhnya, . Dalam hal ini maka harga rxx’ = 1 – 1 = 0, artinya tes tersebut sama sekali tidak reliabel. Kalau pengukuran tidak mengandung kesalahan sama sekali, maka  = 0 dan harga komponen  = 0, dan rxx’ = 1 – 1 = 0. Dengan kata lain, reliabilitas tes tersebut sempurna karena pengukuran yang dilakukan tanpa kesalahan.
Varians (derajat heterogenitas) skor amatan, , mempunyai pengaruh penting terhadap reliabilitas. Bila diasumsikan bahwa varians skor-tampak sangat menentukan harga . Jika sampel heterogen, maka nilai  akan kecil dan rxx’ = 1 -  akan besar. Dengan kata lain, estimasi yang didasarkan data dari sampel yang heterogen cenderung menghasilkan koefisien reliabilitas yang tinggi daripada kalau didasarkan pada data dari sampel yang homogen.
Keenam interpretasi yang diperlukan dalam upaya lebih memahami tafsiran koefisien reliabilitas berdasarkan konsep teori skor murni klasikal. Untuk mempermantap pemahaman tentang keenam interpretasi tersebut, uraian berikut ditunjukkan pada bagaimana metode yang dapat digunakan untuk melakukan estimasi koefisien reliabilitas.

C.    Faktor yang berpengaruh terhadap Reliabilitas
Menurut Agung (2010),  ada 3 faktor yang dapat mempengaruhi realibilitas suatu tes, yaitu panjang tes, karakteristik peserta tes, dan proses penyelenggaraan tes. 
1)      Panjang tes (banyak sedikitnya butir tes)
Semakin panjang tes, maka reliabilitasnya juga akan semakin tinggi. Salah satu cara untuk meningkatkan reliabilitas dengan penambahan butir tes adalah dengan penambahan butir tes, yaitu sebagai berikut.
Dengan keterangan :
r           = koefisien realibilitas
       = koefisien reliabilitas setelah butir tes ditambahkan
n          = ratio penambahan butir (jumlah butir akhir dibagi jumlah butir awal)

misalnya koefisien realibilitas awal = 0,70
jumlah butir awal        = 40
jumlah butir akhir        = 60
n = 60 : 40 = 1,5 kemudian masukkan harga r dan n ke dalam rumus.
Berdasarkan hasil perhitungan di atas, maka dengan menambah 20 butir tes dari jumlah butir tes semula yaitu 40, ternyata mampu meningkatkan koefisien reliabilitas dari 0,70 menjadi 0,78 atau naik sebesar 0,08.
2)      Karakteristik peserta tes
Tes yang diujicobakan kepada kelompok yang diambil secara acak (random), akan menunjukkan reliabilitas yang lebih besar daripada yang di uji cobakan pada kelompok yang tidak diacak.
3)      Proses penyelenggaraan
Reliabilitas suatu tes juga dapat dipengaruhi oleh faktor proses penyelenggaraan yaitu dapat dilihat dari kejelasan petunjuk pengerjaan tes, ketertiban pengawas tes, dan suasana lingkungan dan tempat tes.




D.    Jenis Koefisien Reliabilitas
1)      Metode test-retest
Metode test-retest dilakukan dengan menggunakan tes yang sama pada kelompok subjek yang sama dua kali dengan member tenggang waktu yang cukup diantara kedua penyajian tersebut. Koefisien korelasi sempurna hanya akan diperoleh bila setiap subjek mendapat skor yang sama pada kedua penyajian dan bila distribusi skor kelompok tersebut variansnya tidak sama dengan nol.
            Untuk menghitung koefisien reliabilitas, rumus yang dapat digunakan adalah korelasi product moment dari Pearson, dengan rumusan,
 Dimana :
                   = Korelasi antara skor amatan tes X dan skor amatan tes Y
            SX       = Jumlah skor amatan pada tes X
            SY       = Jumlah skor amatan pada tes Y
            S     = Jumlah kuadrat skor amatan pada tes X
            S     = Jumlah kuadrat skor amatan pada tes Y
                       SXY    = Jumlah hasil hasil kali skor amatan pada tes X dengan skor amatan pada tes Y
            N         = Banyaknya subjek
Mardapi (2004) mengatakan bahwa perubahan sikap subjek juga dapat mempengaruhi estimasi reliabilitas, kalau pada pelaksanaan yang kedua subjek bersikap negatif, menolak bekerja dengan bersungguh-sungguh, atau dengan sengaja member jawaban seenaknya, akan mengakibatkan pula korelasi yang rendah. Masalah lain dalam prosedur test-retest adalah masalah menentukan lamanya waktu yang harus disediakan diantara dua pelaksanaan tes. Kalau tenggang waktu terlalu singkat, sangat mungkin terjadi carry-over effect akibat memori, practice, atau suasana hati subjek, atau bertambahnya informasi yang diperoleh subjek dalam hal aspek yang diukur oleh tes yang bersangkutan. Karena itu, metode test-retest lebih cocok untuk digunakan dalam mengestimasi reliabilitas tes yang mengukur traits yang stabil selama tenggang waktu pelaksanaan dan tak mudah dipengaruhi carry-over effect.

2)      Metode parallel form
Estimasi reliabilitas dengan menggunakan metode Parallel-Form dilakukan dengan menghitung korelasi skor amatan antara dua tes amatan yang paralel yang disajikan pada kelompok subjek yang sama. Dikarenakan hampir tidak mungkin untuk memperoleh dua tes yang paralel, maka biasanya digunakan alternate forms sebagai pengganti. Alternate-forms adalah dua tes yang mengukur satu trait yang sama dan disusun sedemikian rupa sehingga menjadi separalel mungkin sehingga keduannya dapat mempunyai distribusi skor amatan dengan rata-rata, varians dan korelasi dengan tes lain, yang sama besar.
Rounded Rectangle: Form ASebagai ilustrasi metode estimasi dengan metode ini dapat dilihat pada gambar berikut.

      
Time 2

 
Time 1
 
 







3)      Metode Ekuivalen
Reliabilitas ini tidak ditentukan menggunakan korelasi tetapi menggunakan estimasi konsistensi internal. Reliabilitas ini diukur menggunakan Kuder-Richardson, biasanya Formula-20 (KR-20) atau Formula-21 (KR-21). Kedua rumus ini hanya dapat dipakai untuk tes yang aitem-aitemnya diskor dikotomi, yaitu benar atau salah, 0 atau 1. Menerapkan banyak indikator yang dapat dioperasionalisasikan ke semua konsepsi pengukuran. Kesetaraan keandalan akan menggunakan dua instrumen untuk mengukur konsep yang sama pada tingkat kesulitan yang sama. Reliabilitas atau tidaknya pengujian akan ditentukan dari hubungan dua skor instrumen, atau lebih dikenal dengan hubungan antara variabel bebas (independen variable) dengan variabel terikat (dependen variable).
Untuk mencari reliabilitas equivalen, digunakan rumus korelasi Product Moment, yaitu mengkorelasi skor butir pertama (X) dengan skor tes ke dua (Y). Rumus korelasi Product Moment yang digunakan adalah sebagai berikut.
Keterangan:
korelasi antara skor tes pertama dengan skor tes ke dua.

4)      Metode Belah Dua (split half methods)
Metode belah dua adalah pengetes (tester) hanya menggunakan satu set tes dicobakan satu kali. Cara mengkorelasikan antara lain:
(a)    Skor butir tes bernomor ganjil dengan butir tes bernomor genap. Untuk itu dianjurkan menggunakan rumus formula Flanagan sebagai berikut.
Keterangan:
                = Varian skor butir tes ganjil
                = Varian skor butir tes genap
                = Varian skor butir tes ganjil dan genap
(b)   Antara skor butir tes belahan awal dan belahan akhir. Untuk ini dianjurkan menggunakan rumus formula Rufon sebagai berikut.
Keterangan:
            d= perbedaan (selisih) antara skor belahan awal dan belahan akhir
                = varian beda
                = varian total
Hasil korelasi tersebut baru merupakan reliabilitas separo tes. Oleh karenanya, untuk koefesien reliabilitas seluruh tes digunakan rumus sebagai berikut.
Keterangan:
            r1.1       = koefesien reliabilitas seluruh butir tes
            = koefesien korelasi antara skor setiap belahan
Cara Membelah dengan Teknik Ganjil-Genap dan Awal-Akhir
Keterangan:
            Belahan ganjil meliputi butir tes nomor : 1,3,5,7 dan 9
            Belahan genap meliputi butir tes nomor : 2,4,6,8 dan 10
            Belahan awal meliputi butir tes nomor : 1,2,3,4 dan 5
            Belahan akhir meliputi butir tes nomor : 6,7,8,9 dan 10
5)      Metode internal consistency
Metode internal consistency hanya memerlukan satu kali penyajian test saja (dikenal dengan nama single-trial administration) dank arena itu masalah-masalah yang timbul akibat penyajian yang berulang dapat dihindari. Salah satu prosedur dalam metode internal consistency yang sangat popular adalah yang menghasilkan estimasi reliabilitas split-half (belah dua). Tes yang akan diestimasi reliabilitasnya dibelah menjadi dua bagian yang diusahakan parallel. Pembelahan ini dilakukan setelah keseluruhan test sebagai kesatuan dikenakan pada para subjek. Kemudian dapat diperoleh distribusi skor amatan subjek untuk belahan pertama dan belahan kedua.
a.      Spearman Brown Formula
Apabila terdapat alasan kuat untuk menganggap belahan 1 dan 2 adalah parallel, maka estimasi reliabilitas keseluruhan test X, yaitu  , dapat dilakukan dengan formula Sprearman-Brown pada koefisien korelasi antara skor pada belahan 1 dan 2, dengan rumusan.
 = =
Dimana :
             = Koefisien reliabilitas keseluruhan test X
              = Koefisien korelasi antara kedua belahan
b.      Formula Rulon
Rulon (1939) mengetengahkan suatu teknik estimasi reliabilitas belah dua tanpa perlu berasumsi bahwa kedua belahan mempunyai varians yang sama. Varians yang perlu diperhitungkan dalam teknik ini adalah varians kesalahan. Menurut Rulon, varians distribusi perbedaan skor pada belahan-belahan tes seluruhnya ditentukan oleh varians kesalahan masing-masing belahan ini bersama-sama membentuk varians kesalahan tes keseluruhan, karena itu varians distribusi perbedaan dapat dipakai guna mengestimasi reliabilitas tes. Estimasi reliabilitas dapat dilakukan dengan menggunakan formula berikut:
                                    = 1-
                                    Dimana:
                                    koefisien reliabilitas tes X
                                        = Varians distribusi perbedaan skor kedua belahan
                                        = Varians distribusi skor total
c.       Koefisien Alpha
Apabila distribusi skor pada belahan 1 dan 2 tidak memiliki varians yang sama atau tidak cukup alasan untuk menganggap kedua belahan tersebut parallel, maka estimasi keseluruhan tes dapat diperoleh dengan menggunakan koefisien alpha (Cronbach, 1951). Rumus untuk menghitung koefisien alpha, yaitu :
  
Keterangan :
 = varians skor subjek pada belahan j;j = 1,2
 = varians skor pada keseluruhan test X
  = Koefisien reliabilitas alpha
Koefisien alpha akan memberikan nilai yang lebih kecil atau sama besar dengan nilai reliabilitas yang sebenarnya (). Jadi akan slalu ada kemungkinan bahwa reliabilitas tes yang sebenarnya adalah lebih tinggi daripada koefisien alpha.
            Nilai  yang dihitung dengan formula Spearman-Brown dan nilai yang diperoleh dengan koefisien alpha akan tinggi apabila korelasi antara kedua belahan tes juga tinggi, sebaliknya apabila kedua belahan tes berkorelasi rendah maka  dan koefisien alpha juga akan rendah. Jadi, reliabilitas Spearman-Brown dan koefisien alpha dapat dianggap sebagai indeks internal-consistency atau indeks homogenitas tes.
            Pembelahan tes tidak terbatas pada membelah tes menjadi dua belahan saja. Adalah mungkin untuk untuk membelah tes menjadi lebih dari dua komponen atau dua belahan. Formula koefisien alpha dapat digunakan untuk estimasi tes yang dibelah menjadi J komponen dengan menghitung varians skor tiap-tiap  belahan serta varians skor total. Formula dimaksud akan menghasilkan estimasi reliabilitas yang baik hanya bila isi tes yang bersangkutan homogeny, yaitu mengukur trait tunggal. Formula umum koefisien alpha untuk belahan yang lebih besar dari, yaitu:
a =
Dimana :
 = Varians skor subjek pada keseluruhan tes X yang terbagi atas J belahan
 = Varians skor subjek pada belahan ke j;j = 1,2,3,…J.
J    = Banyaknya belahan

d.      Formula Kuder-Richardson (KR 20 dan KR 21)
Jika setiap komponen atau belahan tes merupakan butir yang diberi skor dikotomi (dichotomous), yaitu terdiri atas angka 0 dan 1, maka formula alpha akan mengambil bentuk khusus sebagai formula Kuder-Richardson-20 (KR-20, 1973) yang disebut juga koefisien a – 20 (Cronbach, 1951) (Harun dan Mansur).
KR – 20 =
Dimana:
        = proporsi subjek yang mendapat skor 1 pada butir i, yaitu banyaknya subjek mendapat skor 1 dibagi dengan banyaknya seluruh subjek.
     = varians skor tes X
J           = banyaknya butir tes, dalam hal ini adalah banyaknya butir tes.
Selanjutnya Kuder dan Richardson merumuskan pula formulanya guna menghitung reliabilitas tes yang terdiri dari item dikotomi, dengan menggunakan rata-rata proporsi subjek yang mendapat skor 1. Rumus ini dikenal dengan nama formula Kuder-Richardson-21.
KR – 21 =
Dimana:
P          = rata-rata proporsi subjek yang mendapat skor 1 pada butir I, atau jumlah seluruh nilai  dibagi dengan banyaknya butir.
     = varians skor tes X
J           = banyaknya belahan tes, dalam hal ini adalah banyaknya item tes.
Tampak hasil koefisien reliabilitas yang diperoleh dengan menggunakan formula KR-20 dan KR-21. Kelihatannya bahwa menggunakan formula KR-20 memberikan koefisien reliabilitas yang lebih tinggi jika dibandingkan dengan menggunakan formula KR-21.
Jika taraf kesukaran butir-butir () dalam tes adalah sama, maka formula KR-20 dan KR-21 akan menghasilkan estimasi reliabilitas yang identik. Perbedaan taraf kesukaran butir menyebabkan koefisien KR-21 lebih rendah daripada KR-20 dan merupakan underestimasi terhadap reliabilitas tes yang sesungguhnya.

e.       Formula Krisoff untuk tes belah tiga
Kadang-kadang prosedur single trial administration sering ditemui kasus dimana jumlah item tes tidak memungkinkan untuk dibagi dua atau ganjil. Agar tes tersebut dapat dihitung reliabilitasnya, kadang-kadang diperlukan untuk membagi menjadi tiga bagian. Tentunya setiap bagian tes diasumsikan memiliki isi yang homogeny (congeneric). Untuk dapat menghitung koefisien reliabilitas, Kristoff (1974) (Harun dan Mansur) merumuskan formula dengan melakukan estimasi terhadap varians skor murni terlebih dahulu, kemudian menghitung reliabilitasnya. Estimasi varians dapat dilakukan dengan menggunakan rumus,
       =
Keterangan:
       = varians skor murni
       = kovarians belahan j dan belahan k
Kemudian estimasi koefisien reliabilitas digunakan rumus berikut. =


f.       Pendekatan analisis Varians
Di samping menggunakan teknik-teknik korelasi, reliabilitas tes dapat diestimasi melalui pendekatan analisis varians yang antara lain diusulkan oleh Hoyt (1941) (Harun dan Mansur). Konsep dalam analisis Hyot adalah dengan memperhatikan distribusi butir keseluruhan subjek sebagai data yang diperoleh dari desain eksperimen factorial dua jalur tanpa replikasi, yang dikenal pula sebagai item by subject design. Setiap butir dianggap seakan suatu treatmen atau perlakuan yang berbeda sehingga setiap kali subject dihadapkan pada suatu butir seakan-akan ia berada pada suatu perlakuan yang berbeda. Dengan demikian banyaknya butir sama dengan banyaknya perlakuan. Untuk menghitung koefisien reliabilitas dengan metode s Hyot adalah:
=
Dimana:
    = rata-rata kuadrat interaksi butir dengan subjek
     = rata-rata kuadrat antar subjek
Rata-rata kuadrat (MK) dapat dihitung dengan rumus,
Mkis =
Mkis =
Dimana:
i           = skor subjek pada butir ke-i
X         = jumlah skor subjek pada seluruh butir
Y         = jumlah skor seluruh subjek pada satu butir
k          = banyaknya butir
n          = banyaknya subjek
hasil yang diperoleh dengan metode ini, hampir sama dengan koefisien reliabilitas jika kita yang dihitung dengan formula KR-20. Untuk butir dikotomi secara aljabar reliabilitas Hyot adalah identik dengan KR-20.

g.      Reliabilitas belah dua dengan panjang berbeda
Dalam melakukan pembagian tes menjadi dua bagian, kadang-kadang jumlah butir kedua bagian tersebut tidak sama, akibatnya kita tidak dapat menghitung estimasi reliabilitas dengan formula yang telah dijelaskan sebelumnya, oleh karena asumsi t-equivalent tak terpenuhi. Untuk mengatasi permasalahan tersebut, Feldt (1975) (Harun dan Mansur) memberikan suatu formula dengan rumusan:
 =
Dimana:
      = Reliabilitas tes
       = kovarians belahan 1 dan 2
      = varians belahan j,j = 1.2
      = varians skor total x

h.      Persamaan Hoyt
Rumusnya
Keterangan:
r11           = reliabilitas seluruh soal
Vr        = varians responden
Vs        = varians sisa
Untuk mencari reliabilitas suatu soal dilakukan dengan langkah-langkah sebagai berikut.
Langkah 1. Mencari jumlah kuadrat responden dengan rumus:
Keterangan:
Jk(r)      = jumlah kuadrat responden
Xt        = skoe total tiap responden
k          = banyaknya item
N         = banyaknya responden atau subyek
Langkah 2. Mencari jumlah kuadrat item dengan rumus:
Keterangan:
Jk(i)      = jumlah kuadrat item
∑B2     = jumlah kuadrat jawab benar seluruh item
(∑Xt)2  = kuadrat dari jumlah skor total.
Langkah 3. Mencari jumlah kuadrat total dengan rumus:
Keterangan:
Jk(t)      = jumlah kuadrat total
∑B       = jumlah jawab benar seluruh item
∑S       = jumlah jawab salah seluruh item
Langkah 4. Mencari jumlah kuadrat sisa, dengan rumus:
Jk(s) = Jk(t)- Jk(r)- Jk(i)
Langkah 5. Mencari varians responden dan varians sisa dengan                      tabel F
Dalam mencari varians ini diperlukan d.b (derajat kebebasan) dari masing-masing sumber varians kemudian d.b ini digunakan sebagai penyebut terhadap setiap jumlah kuadrat untuk memperoleh variansi
d.b = banyaknya N setiap sumber variansi dikurangi 1
jadi variansi =
langkah 6. Memasukkan ke dalam rumus r11

i.        Persamaan product moment
Rumus korelasi produk moment dengan angka besar


Keterangan
rxy        = Koefisien korelasi antara variable x dan y. (x=X-dan y=Y-
     = Jumlah perkalian x dan y
x2         = Kuadrat dari x
y2            = kuadrat dari y
N         = Jumlah data





Analisis butir dalam asesmen
a.      Tingkat kesukaran
Menurut Koyan (2011), taraf kesukaran tes adalah kesulitan ts dipandang dari kemampuan peserta didik untuk menjawab soal tersebut, itu artinya tes tersebut akan lebih banyak dapat dijawab benar oleh peserta didik yang pandai dan lebih banyak dijawab salah oleh peserta didik yang bodoh. Tarf kesukaran tes yang baik adalah antara 20% atau antara 30%-70%.
Cara Menghitung Tingkat Kesukaran Tes (P)
Tingkat kesukaran tes merupakan bilangan yang menunjukkan proporsi peserta ujian yang dapat menjawab betul butir soal tersebut. Sedangkan tingkat kesukaran peringkat tes adalah bilangan yang menunjukkan rata-rata proporsi tes yang dapat menjawab seluruh tes tersebut.
Rumus: Pp = 
Keterangan :
Pp = tingkat kesukaran perangkat tes
      P          = tingkat kesukaran tiap butir
      N         = banyaknya butir tes
Tingkat ksukaran tiap butir, dihitung dengan :
Rumus : P =      
Keterangan :
      P          = tingkat kesukaran butir tes
      nB       = banyaknya subyek yang menjawab soal dengan betul
      n          = jumlah subyek (testee) seluruhnya
Kriteria tingkat kesukaran (P):
      0,00-0,29 = sukar
      0,30-0,70 =sedang
      0,71-1,00 = mudah
Tes yang baik adalah tes yang memiliki taraf kesukaran antara 0,25-0,75 (Fernandes,1984 dalam Koyan 2011).

b.      Daya Pembeda Tes
Dalam Koyan (2011) daya pembeda tes adalah kemampuan tes untuk membedakan antara peserta didik yang pandai dan bodoh, itu artinya jika tes tersebut diberikan kepada peserta didik yang tergolong bodoh akan lebih banyak dijawab salah. Daya pembeda tes yang baik adalah antara 20%-80% atau antara 30%-70%. Rumus untuk menghitung tingkat daya beda tes adalah sebagai berikut:
Dp = 
Dp = Daya beda tes
N   = jumlah butir tes
Rumus untuk menghitung daya beda butir tes adalah sebagai berikut :
DB =  -  atau D= PA - PB
Keterangan
nBA= jumlah subyek yang menjawab benar pada kelompok atas
nBB = jumlah subyek yang menjawab benar pada kelompok bawah
nA = jumlah subyek kelompok atas
nB= jumlah subyek kelompok bawah
Kriteria Daya Beda (D) :
      0,00 – 0,19 = kurang baik
      0,20 -0,39  = cukup baik
      0,40 – 0,70 =  Baik
      0,71-1,00  = sangat baik


c.       Analisis Pengecoh
Menurut Koyan (2011) pengecoh atau distractor yang baik adalah pengecoh yang dapat mengecoh peserta didik, itu artinya pengecoh tersebut dipilih oleh 2 % atau 3 % dari peserta tes. Pengecoh yang efektif ialah pengecoh yang dipilih oleh minimal 2-3% dari pengikut tes. Berikut ini merupakan contoh cara menghitung efektivitas pengecoh untuk 1 butir tes objektif yang memiliki 4 option a, b, c, dan d
Pilihan
A*
B
C
D

*kunci
Kelompok atas
5
4
0
1
10

Kelompok bawah
3
3
0
4
10

Jumlah
8
7
0
5
20


Kunci jawaban betul untuk soal di atas adalah pilihan jawaban (a). pilihan jawaban b, c, dan d sebagai pengecoh. Pada umumnya sebuah pengecoh yang baik dapat mengundang jawaban lebih besar jumlahnya pada peserta didik kelompok lemah, dan lebih sedikit pada kelompok pandai. Pilihan jawabn b, sebagai pengecoh tidak efektif, sebab menarik jawaban lebih banyak dari kelompok peserta didik pandai. Kejadian itu disebabkan karena distractor (b) membingungkan. Pilihan jawaban c sama sekali tidak efektif, karena tidak dapat menarik jawaban seorangpun. Pilihan jawaban d dipandang memenuhi fungsinya, sebab dapat mengundang jawaban oleh peserta didik kelompok pandai yang lebih sedikit.

d.      Analisis Butir Soal Menurut Teori Respons Butir
      Telah diuraikan diatas, bahwa analisis butir soal yang digunakan berdasarkan pendekatan lteori tes klasik, bekerja dengan asumsi bahwa:
1)      Tidak ada toleransi antara skor yang sebenarnya dan skor kesalahan,
2)      Sepanjang tidak terjadi kesalahan sistematik, maka tidak ada kolerasi antara kesalahan acak pada suatu pengukuran dengan kesalahan acak pada ulangan pengukuran,
3)      Besarnya rerata kesalahan acak sama dengan nol.
Penggunaan teori klasik dalam menganalisis butir soal, memiliki beberapa kelemahan sebagai berikut :
1)      Statistic butir tes berupa tingkat kesukaran dan daya beda butir soal, sangat tergantung pada karakteristik peserta tes. Jika kemampuan peserta rendah, maka tingkat kesukaran butir soal akan tinggi.
2)      Etimasi kemampuan peserta tergantung kepada butir soal yang diujikan. Bila indeks kesukaran kecil, etimasi kemampuan sesorang akan tinggi, demikian pula sebaliknya.
3)      Estimasi skor kesalahan berlaku untuk semua peserta tes. Kesalahan untuk tiap peserta tes besarnya sama, yang dinyatakan dalam bentuk kesalahan baku pengukuran.
4)      Tidak ada informasi tentang respons setiap peserta ujian terhadap tiap butir soal.

e.       Analisis Hasil Tes dan Tindak Lanjutnya
Bagi para siswa, hasil tes yang diselenggarakan oleh guru mempunyai banyak kegunaan, antara lain adalah :
1)      Dapat mengetahui apakah ia sudah menguasai bahan yang disajikan oleh guru,
2)      Dapat mengetahui bagian mana yang belum dikuasainya sehingga ia berusaha untuk mempelajarinya lagi sebagai upaya perbaikan,
3)      Dapat menjadi penguatan bagi siswa yang sudah memperoleh skor tinggi dan menjadi dorongan untuk belajar lagi,
4)      Dapat menjadi diagnosis bagi siswa,
Untuk dapat memanfaatkan hasil ujian secara efektif, perlu dilakukan analisis terhadap hasil tes/hasil ujian yang telah dicapai oleh para siswa. Caranya dengan membuat tabel spesifikasi yang mampu menunjukkan konsep/subkonsep atau tema/subtema kompetensi dasar mana yang belum dikuasai siswa.


Contoh tabel spesifikasi hasil analisis hasil tes untuk mata pelajaran Biologi
Nama Siswa : Dika                                   Kelas :1 IA
Kompetensi Dasar
jumlah Butir
Jumlah yang betul
Persen pencapaian
Penguasaan
Keterangan
1.      Mendeskripsikan keterampilan dasar dan keterampilan sains
20
15
75
V
Menguasai seluruh keterampilan dasar IPA, dan menguasai keterampilan proses IPA berupa mentabulasi data, membuat grafik, tetapi belum menguasai proses IPA dalam hal melakukan inferensi, prediksi, dan menentukan variabel bebas dan variabel

1.      Mengenal langkah-langkah-langkah pemecahan masalah melalui metode eksperimen (percobaan)
30
15
50
15
Hanya menguasai kemampuan merumuskan tujuan dan manfaat percobaan, menentukan treament, dan menentukan kelompok kontrol. Belum menguasai kemampuan merumuskan persoalan, memilih hal-hal yang harus dimuat dalam tinjauan pustaka, merumuskan hipotesis, dan menyiapkan tabel hasil percobaan.


























Standar Keberhasilan : batas penguasaan 75  Sumber : Mardapi (2004)
Berdasarkan tabel, dampaknya Diana masih terbatas menguasai kemampuan mendeskripsikan keterampilan dasar dan keterampilan sains dan gagal menguasai eksperimen (percobaan). Dengan demikian, guru harus mengetahui persis dalam hal ini Diana perlu mendapat bimbingan melalui program perbaikan atau remidi.

f.       Bentuk Laporan
Laporan hasil belajar siswa yang baik seharusnya mencangkup aspek kognitif, aspek psikomotorik, dan aspek afektif. Berikut ini macam-macam laporan (dalam Harun, 2007 :242) adalah :
1)      Laporan untuk Siswa
Untuk menginformasikan hasil belajar siswa dapat diperoleh melalui ujian, kuesioner atau angket, wawancara, atau pengamatan. Informasi hasil ujian dapat dimanfaatkan siswa untuk :
a.       Mengetahui kemajuan hasil belajar diri,
b.      Mengetahui konsep-konsep atau teori-teori yang belum dikuasai,
c.       Memotivasi diri untuk belajar lebih baik,
d.      Memperbaiki strategi belajar.
Selanjutnya dalam memberi informasi yang akurat dapat dimanfaatkan siswa seoptimal mungkin, maka laporan yang diberikan kepada siswa harus berisi tentang :
a.       Hasil pencapaian belajar siswa yang dinyatakan dalam bentuk kompetensi dasar yang sudah dicapai dan belum dicapai,
b.      Kekuatan dan kelemahan siswa dalam semua mata pelajaran,
c.       Minat siswa pada masing-masing mata pelajaran.
Selain itu juga laporan harus menggunakan bahasa yang dapt memotivasi siswa untuk belajar lebih baik.Sehingga format laporan digunakan dalam istilah hasil belajar.
2)      Laporan untuk Orang tua
Untuk informasi hasil ujian dimanfaatkan oleh orang tua untuk memotivasi anaknya agar hasil belajarnya lebih baik dan strategi dalam membantu anaknya belajar. Informasi ini digunakan orang tua untuk :
a.       Membantu anaknya belajar,
b.      Memotivasi anaknya belajar,
c.       Membantu sekolah untuk meningkatkan hasil belajar siswa,
d.      Membantu sekolah dalam melengkapi fasilitas belajar.
Agar dapat memenuhi kebutuhan orang tua dalam meningkatkan proses pembelajaran, bentuk laporan hasil ujian harus mencangkup tiga aspek, yaitu : kognitif, psikomotorik, dan afektif, dan meliputi : kelemahan dan kekuatan siswa, keterampilan siswa dalam melaksanakan tugas, dan minat siswa terhadap mata pelajaran tertentu.
3)      Laporan untuk Guru dan Sekolah
Laporan hasil ujian untuk guru dan kepala sekolah harus mencangkup semua aspek kognitif, psikomotor, dan afektif. Guru memerlukan informasi yang lebih global untuk masing-masing kelas yang diajar, sedangkan kepala sekolah memerlukan informasi global untuk semua kelas dalam satu sekolah, khususnya tentang hasil belajar.


Template by : kendhin x-template.blogspot.com