The impact of rater experience and essay quality on rater behavior and scoring
Künye
Şahan, Ö. (2018) The impact of rater experience and essay quality on rater behavior and scoring. Yayımlanmamış doktora tezi, Çanakkale Onsekiz Mart Üniversitesi, Çanakkale.Özet
Bu tezin amacı, puanlayıcıların geçmiş puanlama tecrübeleri ve değerlendirilen kompozisyonların kalitesinin, puanlayıcıların değerlendirme esnasında sergiledikleri davranışlar ve kompozisyon puanları üzerindeki etkilerini araştırmaktır. İyi ve kötü seviyede yazılmış kompozisyonlara verilen puanlar, nicel araştırma yöntemine tabi tutulurken, puanlayıcıların karar verme stratejileri nitel olarak incelenmiştir. Araştırmada karma araştırma yöntemi olarak yakınsayan paralel karma yöntem deseni kullanılmıştır. Araştırma verisi, Türkiye'nin çeşitli üniversitelerinde çalışan 31 İngilizce okutmanı ve iki araştırma görevlisinden toplanmıştır. Katılımcıların 15'i aynı üniversitede görev yaparken, diğer katılımcıların görev yaptığı üniversiteler çeşitlilik göstermektedir. Araştırmada yer alan katılımcılar, geçmiş puanlama tecrübelerine bağlı olarak üç gruba ayrılmıştır. Buna göre düşük tecrübe grubu 13, orta tecrübe ve yüksek tecrübe grupları da 10'ar kişiden oluşmaktadır. Her bir katılımcı, analitik puanlama ölçeği kullanarak iki farklı kalite grubundan oluşan 50 adet kompozisyon puanlamıştır. Bununla birlikte, sesli düşünme yöntemi kullanılarak katılımcıların İngilizce kompozisyon puanlarken sergiledikleri karar verme stratejileri incelenmiştir. Ayrıca, her bir puanlayıcı tarafından, verilen puanların gerekçelerinin belirtildiği yazılı açıklamalar sunulmuştur. Toplamda 9,900 adet kompozisyon puanı (1,650 toplam puan ve 8,250 alt puan), 466 adet sesli düşünme protokolü ve 5,425 adet yazılı değerlendirme puanı gerekçeleri elde edilmiştir. Nicel veriler, genellenebilirlik kuramı analizi ile birlikte, betimsel ve çıkarımsal istatistik kullanılarak analiz edilirken, nitel verilerin analizleri için tümdengelim ve tümevarım yöntemleriyle kodlama ve sınıflandırma yöntemi kullanılmıştır. Araştırma bulguları, yüksek tecrübe grubunda yer alan puanlayıcıların öğrenci kompozisyonlarına karşı daha olumlu tutum sergilediklerini ve daha az tecrübeli puanlayıcılara göre daha yüksek not verdiklerini göstermektedir. Ayrıca, düşük kalitedeki kompozisyonlara verilen toplam puanlar ve buna ek olarak mekanik bileşenine (imla, noktalama ve büyük harf kullanımı) verdikleri puanlar göz önüne alındığında, yüksek tecrübe ve düşük tecrübe gruplarında yer alan puanlayıcıların birbirlerinden anlamlı bir şekilde farklılaştığı tespit edilmiştir. Ölçmedeki hata kaynaklarını belirlemek ve bunların, puan değişkenliğini ne ölçüde etkilediğini tespit etmek adına genellenebilirlik kuramı analizleri yapılmıştır. Analiz sonuçları, her iki kalitedeki kompozisyonlar bir arada düşünüldüğünde puanlayıcıdan kaynaklanan hatanın küçük olduğunu; ancak farklı kalitedeki kompozisyonlara verilen puanlar birbirinden bağımsız düşünüldüğünde, puanlayıcının puan değişkenliğine daha fazla katkıda bulunduğunu ortaya çıkarmıştır. Araştırmanın nitel bulguları dikkate alındığında ise, farklı tecrübe düzeylerine sahip puanlayıcıların yüksek ve düşük kalitedeki kompozisyonları değerlendirirken farklı karar verme stratejileri uyguladıkları belirlenmiştir. Bu tez araştırması genel olarak, İngilizce yazma becerisinin değerlendirilmesi alanındaki puanlayıcı güvenirliği konusunda çarpıcı sonuçlar ortaya koymaktadır. Kurumsal ve daha genel bağlamlar düzeyinde araştırmanın bulgularının etkileri tartışılmaktadır. Anahtar Kelimeler: genellenebilirlik kuramı, İngilizce kompozisyon değerlendirme, kompozisyon kalitesi, puan değişkenliği, puanlayıcı davranışı, puanlayıcı deneyimi, sesli düşünme protokolü This dissertation aimed to investigate the impact of rater experience and essay quality on rater behavior and scoring. In doing so, the variability of essay scores assigned to high-quality and low-quality essays were examined quantitatively while raters' decision-making strategies were investigated qualitatively. Using convergent parallel design as a mixed-methods approach, data were collected from 31 EFL instructors and two research assistants working at higher education institutions in Turkey. While 15 of the participants were from a specific university, the remaining participants represented various universities across Turkey. Based on their reported rating experience, participants were divided into three groups: low-experienced (n = 13), medium-experienced (n = 10), and high-experienced raters (n = 10). Using an analytic scoring rubric, each participant assessed a number of 50 essays of two distinct qualities (high- and low-quality) and simultaneously recorded think-aloud protocols to determine the raters' decision-making processes while scoring EFL essays. In addition, raters' written explanations for their ratings were used to triangulate the verbal protocols. A total of 9,900 scores (1,650 total scores and 8,250 sub-scores), 446 think-aloud protocols, and 5,425 written score explanations were obtained from the participants. The analysis of quantitative data relied on generalizability (G-) theory approach as well as descriptive and inferential statistics; qualitative data were analyzed through deductive and inductive coding. The results showed that high-experienced raters are more positive toward students' essays and assign higher scores compared to their less experienced peers. Furthermore, the high-experienced and low-experienced groups differed significantly in their total scores and mechanics component sub-scores assigned to low-quality essays. Additionally, G-theory analyses were conducted to determine the sources of measurement error and their relative contributions to the score variability. The results yielded a smaller rater effect when high- and low-quality essays were considered collectively, but it was found that raters contributed more to score variation when separate analyses were conducted for each essay quality. The qualitative findings suggested that raters in different experience groups display different decision-making behaviors while assessing essays of different proficiency levels. Overall, the findings provide striking insights for rater reliability in EFL writing assessment. Implications are discussed with respect to EFL writing assessment in the local and wider context from the perspective of fairness and rater reliability. Keywords: EFL writing assessment, essay quality, G-theory, rater behavior, rater experience, score variability, think-aloud protocols