The impact of rater experience and essay quality on rater behavior and scoring

Şahan, Özgür

dc.contributor.advisor	Razı, Salim
dc.contributor.author	Şahan, Özgür
dc.date.accessioned	2024-01-23T07:54:03Z
dc.date.available	2024-01-23T07:54:03Z
dc.date.issued	2018	en_US
dc.date.submitted	2018-02-05
dc.identifier.citation	Şahan, Ö. (2018) The impact of rater experience and essay quality on rater behavior and scoring. Yayımlanmamış doktora tezi, Çanakkale Onsekiz Mart Üniversitesi, Çanakkale.	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.12428/5340
dc.description.abstract	Bu tezin amacı, puanlayıcıların geçmiş puanlama tecrübeleri ve değerlendirilen kompozisyonların kalitesinin, puanlayıcıların değerlendirme esnasında sergiledikleri davranışlar ve kompozisyon puanları üzerindeki etkilerini araştırmaktır. İyi ve kötü seviyede yazılmış kompozisyonlara verilen puanlar, nicel araştırma yöntemine tabi tutulurken, puanlayıcıların karar verme stratejileri nitel olarak incelenmiştir. Araştırmada karma araştırma yöntemi olarak yakınsayan paralel karma yöntem deseni kullanılmıştır. Araştırma verisi, Türkiye'nin çeşitli üniversitelerinde çalışan 31 İngilizce okutmanı ve iki araştırma görevlisinden toplanmıştır. Katılımcıların 15'i aynı üniversitede görev yaparken, diğer katılımcıların görev yaptığı üniversiteler çeşitlilik göstermektedir. Araştırmada yer alan katılımcılar, geçmiş puanlama tecrübelerine bağlı olarak üç gruba ayrılmıştır. Buna göre düşük tecrübe grubu 13, orta tecrübe ve yüksek tecrübe grupları da 10'ar kişiden oluşmaktadır. Her bir katılımcı, analitik puanlama ölçeği kullanarak iki farklı kalite grubundan oluşan 50 adet kompozisyon puanlamıştır. Bununla birlikte, sesli düşünme yöntemi kullanılarak katılımcıların İngilizce kompozisyon puanlarken sergiledikleri karar verme stratejileri incelenmiştir. Ayrıca, her bir puanlayıcı tarafından, verilen puanların gerekçelerinin belirtildiği yazılı açıklamalar sunulmuştur. Toplamda 9,900 adet kompozisyon puanı (1,650 toplam puan ve 8,250 alt puan), 466 adet sesli düşünme protokolü ve 5,425 adet yazılı değerlendirme puanı gerekçeleri elde edilmiştir. Nicel veriler, genellenebilirlik kuramı analizi ile birlikte, betimsel ve çıkarımsal istatistik kullanılarak analiz edilirken, nitel verilerin analizleri için tümdengelim ve tümevarım yöntemleriyle kodlama ve sınıflandırma yöntemi kullanılmıştır. Araştırma bulguları, yüksek tecrübe grubunda yer alan puanlayıcıların öğrenci kompozisyonlarına karşı daha olumlu tutum sergilediklerini ve daha az tecrübeli puanlayıcılara göre daha yüksek not verdiklerini göstermektedir. Ayrıca, düşük kalitedeki kompozisyonlara verilen toplam puanlar ve buna ek olarak mekanik bileşenine (imla, noktalama ve büyük harf kullanımı) verdikleri puanlar göz önüne alındığında, yüksek tecrübe ve düşük tecrübe gruplarında yer alan puanlayıcıların birbirlerinden anlamlı bir şekilde farklılaştığı tespit edilmiştir. Ölçmedeki hata kaynaklarını belirlemek ve bunların, puan değişkenliğini ne ölçüde etkilediğini tespit etmek adına genellenebilirlik kuramı analizleri yapılmıştır. Analiz sonuçları, her iki kalitedeki kompozisyonlar bir arada düşünüldüğünde puanlayıcıdan kaynaklanan hatanın küçük olduğunu; ancak farklı kalitedeki kompozisyonlara verilen puanlar birbirinden bağımsız düşünüldüğünde, puanlayıcının puan değişkenliğine daha fazla katkıda bulunduğunu ortaya çıkarmıştır. Araştırmanın nitel bulguları dikkate alındığında ise, farklı tecrübe düzeylerine sahip puanlayıcıların yüksek ve düşük kalitedeki kompozisyonları değerlendirirken farklı karar verme stratejileri uyguladıkları belirlenmiştir. Bu tez araştırması genel olarak, İngilizce yazma becerisinin değerlendirilmesi alanındaki puanlayıcı güvenirliği konusunda çarpıcı sonuçlar ortaya koymaktadır. Kurumsal ve daha genel bağlamlar düzeyinde araştırmanın bulgularının etkileri tartışılmaktadır. Anahtar Kelimeler: genellenebilirlik kuramı, İngilizce kompozisyon değerlendirme, kompozisyon kalitesi, puan değişkenliği, puanlayıcı davranışı, puanlayıcı deneyimi, sesli düşünme protokolü	en_US
dc.description.abstract	This dissertation aimed to investigate the impact of rater experience and essay quality on rater behavior and scoring. In doing so, the variability of essay scores assigned to high-quality and low-quality essays were examined quantitatively while raters' decision-making strategies were investigated qualitatively. Using convergent parallel design as a mixed-methods approach, data were collected from 31 EFL instructors and two research assistants working at higher education institutions in Turkey. While 15 of the participants were from a specific university, the remaining participants represented various universities across Turkey. Based on their reported rating experience, participants were divided into three groups: low-experienced (n = 13), medium-experienced (n = 10), and high-experienced raters (n = 10). Using an analytic scoring rubric, each participant assessed a number of 50 essays of two distinct qualities (high- and low-quality) and simultaneously recorded think-aloud protocols to determine the raters' decision-making processes while scoring EFL essays. In addition, raters' written explanations for their ratings were used to triangulate the verbal protocols. A total of 9,900 scores (1,650 total scores and 8,250 sub-scores), 446 think-aloud protocols, and 5,425 written score explanations were obtained from the participants. The analysis of quantitative data relied on generalizability (G-) theory approach as well as descriptive and inferential statistics; qualitative data were analyzed through deductive and inductive coding. The results showed that high-experienced raters are more positive toward students' essays and assign higher scores compared to their less experienced peers. Furthermore, the high-experienced and low-experienced groups differed significantly in their total scores and mechanics component sub-scores assigned to low-quality essays. Additionally, G-theory analyses were conducted to determine the sources of measurement error and their relative contributions to the score variability. The results yielded a smaller rater effect when high- and low-quality essays were considered collectively, but it was found that raters contributed more to score variation when separate analyses were conducted for each essay quality. The qualitative findings suggested that raters in different experience groups display different decision-making behaviors while assessing essays of different proficiency levels. Overall, the findings provide striking insights for rater reliability in EFL writing assessment. Implications are discussed with respect to EFL writing assessment in the local and wider context from the perspective of fairness and rater reliability. Keywords: EFL writing assessment, essay quality, G-theory, rater behavior, rater experience, score variability, think-aloud protocols	en_US
dc.language.iso	tur	en_US
dc.publisher	Çanakkale Onsekiz Mart Üniversitesi, Lisansüstü Eğitim Enstitüsü	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Efl Writing Assessment	en_US
dc.subject	Essay Quality	en_US
dc.subject	Generalizability Theory	en_US
dc.subject	Rater Behavior	en_US
dc.subject	Rater Experience	en_US
dc.subject	Score Variability	en_US
dc.subject	Think-Aloud Protocols	en_US
dc.subject	Genellenebilirlik Kuramı	en_US
dc.subject	İngilizce Kompozisyon Değerlendirme	en_US
dc.subject	Kompozisyon Kalitesi	en_US
dc.subject	Puan Değişkenliği	en_US
dc.subject	Puanlayıcı Davranışı	en_US
dc.subject	Puanlayıcı Deneyimi	en_US
dc.subject	Sesli Düşünme Protokolü	en_US
dc.title	The impact of rater experience and essay quality on rater behavior and scoring	en_US
dc.title.alternative	Puanlayıcı tecrübesi ve komposizyon kalitesinin puanlayıcı davranışı ve komposizyon puanları üzerindeki etkisi	en_US
dc.type	doctoralThesis	en_US
dc.department	Enstitüler, Lisansüstü Eğitim Enstitüsü, Yabancı Diller Eğitimi Ana Bilim Dalı	en_US
dc.institutionauthor	Şahan, Özgür
dc.relation.publicationcategory	Tez	en_US

Files in this item

Name:: Özgür_Sahan_Doktoratezi.pdf
Size:: 8.957Mb
Format:: PDF
Description:: Doktora Tezi

View/Open

This item appears in the following Collection(s)

Eğitim Bilimleri Enstitüsü Tez Koleksiyonu [114]
Yüksek Lisans, Doktora tezleri

Show simple item record