The effect of rater experience and L2 speaking performance quality on score variation and rater behavior
Citation
Çoban, M. (2022). The effect of rater experience and L2 speaking performance quality on score variation and rater behavior. Yayımlanmamış doktora tezi, Çanakkale Onsekiz Mart Üniversitesi, Çanakkale.Abstract
Bu tezin amacı, puanlayıcıların puanlama deneyimlerinin ve değerlendirilen konuşma sınavlarının kalitesinin puan değişkenliği ve puanlayıcı davranışı üzerindeki etkilerini incelemektir. Yakınsayan paralel tasarım, durum çalışması karma yöntem araştırma yaklaşımı kullanılarak, puanlayıcıların puanlama deneyiminden ve konuşma sınavlarındaki yanıtların kalitesinden kaynaklanan sorunları ele almak için hem nicel hem de nitel araştırma yöntemleri kullanıldı. Bu çalışmaya 25 İngilizce öğretim görevlisi konuşma sınavı puanlayıcısı olarak katılmıştır. Tüm katılımcılar aynı araştırma bağlamından olup, Türkiye'nin batısındaki bir üniversitede görev yapmıştır. Puanlayıcı deneyim ölçeği kullanılarak, düşük deneyimli grup 10, orta deneyimli grup 7 ve yüksek deneyimli puanlayıcı grup 8 katılımcıdan olmak üzere üç adet deneyim grubu oluşturulmuştur. Bütünsel puanlama ölçeği kullanarak, 25 katılımcının hepsi farklı kaliteden oluşan 60 adet konuşma sınavı yanıtını değerlendirdi. Ayrıca, katılımcılar verdikleri puanlara gerekçe oluşturdukları yazılı puan açıklamalarının yanı sıra sesli düşünme protokollerini tamamladılar. Her iki veri toplama yöntemi de nicel verilerden elde edilen bulguları doğrulamak için kullanılmıştır. Katılımcılar 7,500 adet konuşma sınavı puanı (1,500 toplam puan ve 6,000 alt puan), 375 adet sesli düşünme protokolü ve 4,500 adet yazılı puan açıklaması oluşturdu. Çalışmanın sonuçları, düşük kaliteli, orta kaliteli ve yüksek kaliteli konuşma sınavı yanıtlarına verilen puanların birbirinden istatistiksel olarak anlamlı farklılıklar gösterdiğini göstermiştir. Ancak, puanlayıcı deneyim grupları, üç farklı kalitedeki yanıtlara verilen hem toplam hem de bileşen puanlarında anlamlı farklılıklar göstermedi. Genellenebilirlik kuramı bulguları, tüm yanıtlar toplamda incelendiğinde varyasyon üzerinde sınırlı puanlayıcı etkisinin olduğunu, ancak farklı kalitedeki yanıtlar ayrı ayrı analiz edildiğinde daha fazla puanlayıcı etkisinin gözlemlendiğini ortaya koymuştur. Nitel bulgular, puanlayıcıların üç farklı kalitedeki yanıtları değerlendirirken belirli karar verme davranışları sergilediğini ortaya koydu. The purpose of this dissertation was to examine the effect of rater experience and L2 speaking performance quality on score variation and rater behavior. Utilizing convergent parallel case study mixed-method design, both quantitative and qualitative methodologies were combined to address the issues of rater experience and L2 speaking performance quality. Twenty-five EFL instructors participated in this study. All the participants were from the same context, a university in western Türkiye. Using a rater experience scale form, three rater experience groups were formed: low-experienced (n = 10), medium-experienced (n = 7), and high-experienced raters (n = 8). Using an analytic rubric, the participant raters (n = 25) evaluated a number of 60 three quality L2 speaking performances. They also completed verbal protocols as well as written score explanations, corroborating the results retrieved from the quantitative data. The participants provided 7,500 scores (1,500 total scores and 6,000 sub-scores), 375 verbal protocols and 4,500 written score explanations. The results showed that the analytic scores assigned to low-quality, medium-quality, and high-quality L2 speaking performances were statistically significant different from each other. However, rater experience groups did not differ significantly in their both total and component scores assigned to three speaking performance qualities. Furthermore, the results of Generalizability study (G-study) suggested that there was a limited rater impact on the variation when all L2 speaking performances were examined in total, yet more rater effect was observed when speaking performance qualities were analyzed individually. The qualitative findings revealed that raters showed certain decision-making behaviors across three speaking performance qualities.