Validitas

Selain reliabilitas, hal penting yang juga perlu diperhatikan dari sebuah alat ukur adalah validitasnya. Secara umum validitas mengukur sejauh mana sebuah alat ukur benar-benar mengukur apa yang hendak diukur. Sebuah tes baru bisa dikatakan benar-benar mengukur apa yang diukur ketika hasil yang diberikan oleh pengukuran itu sudah tepat. Oleh karena itu, sebuah tes baru bisa dikatakan valid jika tes tersebut sudah reliabel. Sebelum sebuah tes bisa dibuktikan reliabilitasnya, maka tes tersebut tidak bisa dikatakan bisa mengukur apa yang hendak diukur.

Reliabilitas memberikan bukti bahwa hasil pengukuran sudah tepat dapat dipercaya, sedangkan validitas membuktikan bahwa sebuah tes memang benar-benar sesuai dengan tujuan pengetesan. Oleh karena itu, kedua hal ini mutlak harus dimiliki oleh sebuah alat tes yang baik. Tidak ada yang lebih penting di antara keduanya, karena dua hal ini adalah persyaratan dari sebuah alat tes yang baik.

Secara umum validitas dapat dibagi menjadi tiga:

  1. Content Validity

Validitas jenis ini menilai sejauh mana isi dari sebuah alat ukur sudah benar-benar mencakup seluruh spesifikasi konstruk yang hendak diukur. jika sebuah tes dibuat untuk mengukur hasil belajar selama satu semester, maka isi dari tes tersebut harus mencakup semua materi pelajaran untuk semester tersebut sesuai dengan kisi-kisi dan bahan ajar yang diajarkan. Untuk menguji validitas isi sebuah alat tes, dapat dilakukan dengan cara kualitatif, yaitu meminta penilaian dari seorang yang dianggap ahli dalam bidang yang hendak diukur, bisa juga dengan melakukan korelasi dari hasil rating dari dua ahli yang berbeda. Biasanya pengujian validitas konten ini adalah pengujian yang dilakukan pertama kali sebelum dilakukan trial untuk sebuah alat ukur.

Meskipun sebuah alat ukur secara konten sudah dianggap valid, namun tetap perlu dilakukan pengujian validitas yang lain karena pengujian validitas konten hanya mengukur apakah sebuah tes benar-benar mencakup keseluruhan dari blue print atau spesifikasi sebuah konstruk. Kita masih belum bisa membuktikan apakah tes ini memang benar-benar secara konstruk sudah baik dan memang bisa digunakan untuk melakukan prediksi mengenai apa yang ingin kita prediksi sesuai dengan tujuan pengetesan.

  1. Criterion Validity

Validitas jenis ini membuktikan seberapa efektif sebuah alat ukur dalam memprediksi sebuah kriteria independen. Pembuktian criterion validity ini sangat berkaitan erat dengan tujuan penggunaan sebuah alat tes. Sebuah alat tes yang digunakan untuk keperluan sebuah seleksi, harus benar-benar dibuktikan valid untuk membedakan antara orang yang akan sukses dan tidak sukses pada hal yang sedang diseleksikan. Misalnya sebuah tes masuk perguruan tinggi, dikatakan memiliki criterion validity yang baik jika memang bisa membedakan antara orang yang akan berhasil atau tidak di perguruan tinggi tersebut yang diperlihatkan dengan nilai IPK. Untuk melakukan pengujian validitas ini, nilai tes masuk yang akan diujikan dikorelasikan dengan nilai IPK yang didapat oleh individu.

Berdasarkan ketersediaan kriteria, maka pengujian validitas ini dapat dibagi menjadi dua, yaitu concurrent dan predictive. Concurrent validity adalah ketika kriteria didapat pada saat yang bersamaan dengan skor test, sedangkan predictive validity adalah ketika kriteria diperoleh setelah rentang waktu tertentu dari didapatkannya hasil skor tes.

Penentuan kriteria untuk pengujian tes ini biasanya dipilih sesuai dengan tujuan pembuatan alat tes tersebut. Untuk tes seleksi masuk sekolah kriterianya bisa digunakan nilai rapor, untuk seleksi pegawai kriterianya kinerja pekerjaan dll. Selain itu, ada salah satu cara lain yang dapat dilakukan untuk mengukur criterion validity yaitu dengan menggunakan contrasted grup. Metode ini biasa diterapkan dalam pengujian terhadap tes-tes kepribadian. Yaitu dengan membedakan hasil tes antara kelompok yang memang benar-benar dianggap memiliki karakteristik tinggi pada hal yang hendak diukur dibandingkan dengan kelompok yang tidak. Sebuah tes dianggap baik jika bisa dibuktikan bahwa hasil kelompok yang memang dianggap tinggi itu hasilnya memang lebih tinggi dibandingkan dengan kelompok yang lain.

  1. Construct Validity

Pengujian validitas yang ketiga adalah pengujian validitas konstruk. Pengujian validitas ini berkaitan dengan pembuktian sejauh mana sebuah alat ukur memang benar-benar mengukur konstruk yang hendak diukur. pada dasarnya pengujian validitas inilah yang paling dekat dengan definisi validitas secara umum. Ada tiga metode penghitungan validitas konstruk yang biasa digunakan:

  • Korelasi dengan tes lain

Ini adalah bentuk validitas yang umum dilakukan yaitu dengan cara mengkorelasikan sebuah tes dengan tes lain yang dianggap mengukur hal yang sama. Salah satu kelemahan utama dari pengujian ini adalah kita tidak bisa menentukan apakah tes lain tersebut memang benar-benar mengukur apa yang hendak kita ukur. Kita tidak bisa mengecek apakah memang tes lain tersebut benar-benar sudah valid sehingga bisa digunakan sebagai dasar pengujian validitas tes kita.

  • Konvergen dan diskriminan

Prinsip dasar dari pengujian konstruk dengan metode ini adalah bahwa tes yang memiliki validitas konstruk yang baik akan berkorelasi dengan tes yang mengukur hal yang sama dan tidak akan berkorelasi dengan tes yang mengukur hal yang tidak berhubungan secara teoritis. Salah satu metode yang sistematis untuk mengukur hal ini adalah dengan melakukan multitrait-multimethod. Dengan melakukan hal ini kita bisa benar-benar yakin bahwa tes kita hanya mengukur satu konstruk dan bukan mengukur konstruk yang lain.

  • Analisis Faktor

Ini adalah metode pengukuran validitas konstruk yang terbaik karena bisa membuktikan secara statistik bagaimana konstruk-konstruk yang ada dalam sebuah alat ukur dibuktikan keterkaitannya. Pada awalnya metode analisis faktor digunakan untuk menemukan triat-trait pada tes kepribadian. Seiring dengan perkembangannya, ada jenis metode analisis faktor yang disebut confirmatory factor Analysis yang bisa dilakukan untuk melakukan pembuktian/atau konfirmasi apakah secara konstruk atau secara struktural item-item dan dimensi-dimensi yang ada dalam alat ukur kita sesuai dengan konstruk yang kita susun berdasarkan data dari sampel yang kita ambil. Untuk melakukan perhitungan confirmatory factor analysis, diperlukan program komputer khusus yang memang didesain untuk melakukan hal ini seperti LISRELL, AMOS, atau M plus.

Ketiga jenis validitas ini harus ada pada setiap alat ukur yang baik. Sama halnya dengan reliabilitas, semua jenis validitas ini juga harus dimiliki oleh setiap tes tetapi mungkin titik beratnya berbeda sesuai dengan tujuan pengkonstruksian alat tes tersebut.

Validitas biasanya mengacu pada sebuah tes secara keseluruhan, meskipun begitu, kita juga bisa menguji apakah sebuah item dalam tes memang benar-benar valid mengukur apa yang hendak diukur. dalam hal ini sebenarnya pengujiannya lebih berkaitan dengan analisis item dan bukan pada pengujian validitas tes secara umum.

Untuk menguji validitas sebuah item tes, prinsip dan metode yang digunakan sebenarnya sama dengan pengujian validitas tes. Biasanya item akan dikorelasikan dengan kriteria yang dianggap mewakili kriteria tertentu. Cara yang umum digunakan adalah dengan mengkorelasikan item dengan total skor. Total skor dianggap sebagai kriteria, semakin tinggi total skor maka dianggap mewakili karakteristik yang hendak diukur. Permasalahan mendasar dari pengujian validitas item seperti ini adalah total skor diperoleh dari penjumlahan item-item yang juga belum teruji validitasnya. Untuk mengatasi hal ini, salah satu cara yang bisa dilakukan adalah dengan memilih kriteria di luar yang memang sudah terbukti valid. Cara pengujiannya mirip dengan pengujian validitas korelasi dengan tes lain, tetapi dalam pengujian validitas item ini yang dilakukan adalah korelasi antara skor di tiap item dengan skor tes lain tersebut. Jika ditemukan korelasi yang tinggi maka dianggap item tersebut juga mengukur konstruk yang sama dengan konstruk tes yang dijadikan kriteria.

 

 

Referensi:

Anastasi & Urbina (1997). Psychological Testing 7th edition.  New Jersey: Prentice Hall

Urbina (2004). Essential of Psychological Testing. New Jersey: John Wiley & Sons, Inc.

Posted in Konsep Psikometri | Tagged , , | Leave a comment

Reliabilitas

Secara umum pengukuran reliabitas dilakukan untuk menghitung ketepatan atau kekonsistenan hasil yang ditunjukkan dari sebuah pengukuran. Semakin tidak konsisten dan tidak tepat sebuah hasil pengukuran, maka tes tersebut dapat dikatakan semakin tidak reliabel dan memiliki measurement error yang semakin tinggi. Secara umum, untuk menguji seberapa konsisten dan tepat hasil pengukuran sebuah alat tes ditunjukkan oleh koefisien reliabilitas dari alat tes tersebut.  Semakin tinggi koefisien reliabilitas sebuah alat ukur, maka dapat dikatakan bahwa measurement error  yang dimiliki oleh alat ukur tersebut semakin rendah dan hasil skor dari alat ukur tersebut semakin dapat dipercaya.

Menurut Urbina (2004), secara umum sumber error dapat dibagi menjadi:

  • Time sampling error

Perbedaan hasil pengukuran yang disebabkan karena sebuah hasil pengukuran diperoleh pada waktu tertentu dan bukan pada waktu yang lain. Dalam melihat sumber eror berdasarkan time sampling ini, ada satu hal yang harus diperhatikan, yaitu apakah konstruk yang hendak diukur itu memang bersifat stabil dan menetap pada diri seseorang, atau memang memiliki sifat berubah-ubah seiring dengan perbedaan waktu.

  • Content sampling eror

Kesalahan yang bersumber dari content sampling error adalah kesalahan yang berkaitan dengan bagaimana pengaturan konten atau isi dari item secara keseluruhan di dalam sebuah tes. Jika sebuah tes dimaksudkan untuk mengukur beberapa indikator, maka tes tersebut harus meliputi semua konten yang hendak diukur oleh tes tersebut.

  • Interitem inconsistency

Perbedaan yang terjadi dikarenakan perbedaan item-item yang ada di dalam sebuah tes. Perbedaan hasil disebabkan karena item-item yang ada di dalam sebuah tes berbeda satu sama lain sehingga hasil yang diperoleh dari item tersebut juga berbeda.

Secara umum, Pengukuran reliabilitas  dapat dilakukan dengan tiga cara:

1. Test-retest

Bentuk pengujian reliabilitas dengan cara memberikan tes pada satu waktu lalu mengulangi dengan memberikan tes yang sama pada orang yang sama dengan rentang waktu tertentu. Hasil tes pertama dan kedua kemudian dikorelasikan. Pengujian reliabilitas dengan cara ini bisa menunjukkan sejauh mana skor yang diperoleh oleh seseorang sama dari waktu ke waktu. Metode pengujian test retest ini dapat digunakan untuk membuktikan reliabilitas alat tes berkaitan dengan sumber error time sampling. Pengujian reliabilitas dengan menggunakan metode test-restest ini sangat tepat dilakukan untuk tes-tes yang mengukur sebuah variabel yang memang secara teoritis bersifat menetap dan stabil pada diri individu, misalnya tes intelegensi atau trait kepribadian.

Hal yang menjadi permasalahan dalam pengujian test-retest ini adalah menentukan jarak yang sesuai antara tes pertama dan tes kedua. Jika waktu pengujian terlalu lama, bisa saja memang perbedaan hasil disebabkan oleh perubahan yang terjadi pada individu, sebaliknya jika rentang waktu terlalu singkat, ada kemungkinan bahwa individu masih ingat jawaban yang ia berikan pada tes yang pertama sehingga korelasi yang tinggi disebabkan oleh efek ingatan ini.

2. Single trial

Pada metode pengujian reliabilitas single trial ini, tes hanya diadministrasikan satu kali. Ada dua macam pengujian reliabilitas single trial yang bisa dilakukan. Yang pertama  dengan metode split half (membagi setengah pertama dengan setengah kedua)atau bisa dengan membagi odd-even (korelasi antara item genap atau ganjil). Dengan metode split half ini, kita bisa melihat sejauh mana reliabilitas sebuah alat tes berkaitan dengan sumber error content samplingnya. Dengan melakukan korelasi antara separuh tes dengan separuh yang lain, maka dapat dibuktikan apakah content di antara kedua bagian ini setara atau tidak. Hasil yang tinggi membuktikan bahwa konten yang dimiliki oleh kedua bagian ini bisa dikatakan setara. Permasalahan yang mungkin timbul pada metode split half ini adalah menentukan bagaimana membagi tes menjadi dua dengan cara yang sesuai. Bisa saja korelasi yang rendah ternyata disebabkan oleh pembagian yang tidak tepat antara separuh tes dengan separuh tes yang lain.

Yang kedua adalah pengukuran internal consistency antar item (KR atau alpha cronbach). Metode pengujian single trial ini merupakan cara untuk mengukur sejauh mana konsistensi internal dari sebuah alat ukur. Dengan melakukan pengujian reliabilitas seperti ini, kita bisa mengukur sumber error yang disebabkan oleh ketidakkonsistenan antar item. Permasalahan yang mungkin timbul dari pengujian internal consistency ini adalah jika sebuah konstruk secara teoritis memang tidak bersifat homogen. Jika hal ini yang terjadi, maka pengujian internal consistency akan menghasilkan koefisien reliabilitas yang rendah, tetapi hal ini memang seharusnya terjadi karena secara teoritis konstruk tersebut bersifat heterogen.

3. Alternate form

Bentuk pengujian reliabilitas dengan cara mengadministrasikan tes pada seseorang pada kesempatan pertama, lalu memberikan form alternatif tes yang sama kepada orang tersebut. Jika kita kaitkan dengan sumber error dalam pengukuran, maka metode ini dimaksudkan untuk menguji content sampling error yang ada pada sebuah tes. Dengan korelasi yang tinggi dapat dikatakan bahwa secara konten kedua tes sama dan menghasilkan hasil yang sama. Keterbatasan metode ini adalah adanya kesulitan untuk membuat dua buah tes paralel yang benar-benar setara.

Jika ada rentang waktu antara pengadministrasian tes pertama dan kedua, maka metode ini disebut test-retest with alternate form. Metode ini sebenarnya menggabungkan antara pengujian reliabilitas untuk mengatasi error content sampling, dan juga dengan pengujian reliabilitas tes-retest. Dengan hasil korelasi yang tinggi bisa menunjukkan bahwa selain hasil tes stabil pada pengujian dengan waktu yang berbeda, dan secara content juga sudah memuaskan. Meskipun memberikan informasi yang lebih banyak, metode test retest dengan alternate form ini juga memiliki kelemahan dari metode pengujian reliabilitas test-retest dan metode pengujian alternate form.

Jika kita melihat sumber kesalahan yang mempengaruhi ketepatan dan keterandalan hasil pengukuran ini, maka idealnya semua alat tes harus diuji reliabilitasnya menggunakan ketiga bentuk pengujian reliabilitas ini. Akan tetapi, ini juga tergantung pada sifat dari alat tes itu sendiri. Sebuah alat tes yang memang mengukur konstruk yang secara teoritis berubah-ubah seperti mood dan sikap, mungkin tidak tepat jika diuji reliabilitas tes retesnya. Contoh lain, untuk sebuah tes yang didesain untuk mengukur penguasaan materi sebuah pelatihan sebelum dan sesudah pelatihan dilakukan, mungkin harus memiliki alternate form sehingga bisa diadministrasikan di kedua kesempatan ini, untuk tes seperti ini, mungkin reliabilitas alternate form lah yang harus ditekankan pada saat melakukan konstruksi alat tes untuk keperluan semacam ini.

Sudah dijelaskan di awal bahwa reliabilitas berhubungan dengan ketepatan hasil pengukuran. Selain sumber error yang sudah dijelaskan sebelumnya, ada dua hal lain yang juga akan sangat mempengaruhi reliabilitas sebuah alat ukur. Menurut Anastasi & Urbina (1997) ada hal yang mempengaruhi koefisien reliabilitas dari sebuah alat ukur:

  • Variability

Yang dimaksud dengan variability ini adalah sejauh mana penyebaran karakteristik dari kelompok yang dijadikan sampel dalam penghitungan reliabilitas alat ukur. Jika pengujian reliabilitas dilakukan pada kelompok yang homogen atau mirip, maka varians yang ada dalam kelompok akan sangat kecil, ketika dilakukan penghitungan reliabilitas pada alat ukur ini –yang dilakukan dengan melakukan perhitungan korelasi- maka koefisien yang akan didapat juga akan sangat rendah. Oleh karena itu, dalam pengujian reliabilitas sebuah alat ukur, akan sangat penting untuk memastikan bahwa sampel yang digunakan beragam dan mewakili seluruh rentang kelompok yang memang akan dituju untuk penggunaan alat ukur tersebut.

  • Ability Level

Selain perbedaan individu pada sebuah kelompok sampel, reliabilitas juga dipengaruhi oleh perbedaan rata-rata kemampuan pada kelompok yang berbeda. Sebuah tes yang reliabel membedakan kemampuan aritmetika anak-anak SD, mungkin akan tidak reliabel untuk membedakan kemampuan aritmetika anak-anak SMP. Pada kelompok anak SMP mungkin saja item-item yang ada tidak bisa membedakan kemampuan aritmetika mereka karena soal-soal yang ada terlalu mudah. Apa yang bisa membedakan kemampuan pada anak SD mungkin hanya bisa membedakan kecepatan pengerjaan pada anak SMP. Oleh karena itu, pengujian reliabilitas juga harus melaporkan pada sampel apa pengujian itu dilakukan. Jika sebuah tes hendak dipakai pada kelompok yang berbeda, maka perlu dilakukan pengujian reliabilitas kembali untuk meyakinkan bahwa memang tes tersebut tepat digunakan untuk kelompok yang berbeda ini.

Aplikasi dari pengujian reliabilitas terhadap penggunaan alat ukur adalah untuk mendapatkan Standard Error of Measurement dari sebuah alat ukur. Semakin tinggi reliabilitas sebuah alat ukur, maka SEM dari sebuah alat ukur akan semakin kecil. Pada dasarnya SEM dapat diaplikasikan pada semua koefisien reliabilitas sebuah alat ukur. Menurut Urbina (2004), nilai SEM akan lebih baik jika didapatkan dari penggabungan berbagai macam koefisien reliabilitas tersebut. Dengan menghitung semua koefisien reliabilitas yang menguji sumber kesalahan yang berbeda, maka akan diperoleh informasi SEM yang juga semakin baik. Oleh karena itu, idealnya sebuah alat ukur memang memiliki koefisien reliabilitas internal, stability (test-retest) dan content sampling.

 

 

Posted in Konsep Psikometri | Tagged , | Leave a comment