9. Uluslararası Eğitimde ve Psikolojide Ölçme ve Değerlendirme Kongresi
Bir Sistematik Derleme Çalışması:
Ölçme ve Değerlendirme Perspektifinden
Kısa Yanıtlı Soruların Otomatik Puanlanması
Öğr. Gör. Gürkan CÜVİTOĞLU
Doç. Dr. Burak AYDIN
Prof. Dr. Tarık KIŞLA
Prof. Dr. Hakan ATILGAN
Giriş
Kısa Yanıtlı Sorular (KYS)
sa yanıtlı soruların yanıtı bir kelime, bir sembol, bir rakam, bir ifade ya da basit yapıda bir cümle (Atılgan,
Kan ve Aydın, 2017:167)olabileceği gibi bir cümle ile bir paragraf arasında da olabilir (Burrows, Gurevych
ve Stein, 2015).
Avantajları ve Dezavantajları
Constructed Response
Üst düzey bilişsel becerilerin yoklanması (bilgi, beceri ve yetenek)
Puanlama objektifliği ve kolaylığı
Sorulabilecek soru sayısı
Şans başarısı
PISA, TIMMS, PIRLS,
MEB ve ÖSYM
Otomatik Puanlama
1960’lar: Project Essay Grade
1990’lar: Doğal Dil İşlemedeki (Natural Language Processing, NLP) İlerleme
2000’ler: Kısa Yanıtlı Soruların Otomatik Puanlanması (KYS-OP)
(Burrows, Gurevych ve Stein, 2015)
KYSOP Genel Mimari
Kısa Yanıtlı Soruların Otomatik Puanlanması
KYS-OPun önemi ve avantajları
Objektiflik
Tutarlılık
Zaman Tasarrufu
Emek Tasarrufu
Kaynak Tasarrufu
Geri Bildirim
Bu çalışmayı yapma motivasyonumuz
"Kısa Yanıtlı Soruların Açık Kaynak Kodlu Yazılımla Özdevinimli Puanlanması"
başlıklı TÜBİTAK 3005 projesidir.
cevaplab.org
Problem Durumu
KYS-OP modellerinin gelişimi, metodolojisi ve güncel eğilimini ortaya koymak
KYS-OP modellerinin test edilmesinde kullanılan veri setleri ve özellikleri belirlemek
KYS-OP modellerinin doğrulama (validation) çalışmalarını incelemek
KYS-OP modellerinin performanslarının gelişimi ve mevcut durumunu incelemek
Türkiye’de geniş ölçekli testlerde KYS-OP uygulamak
Türkiye’de geliştirilen KYS-OP modellerini belirlemek
Çalışmanın Amacı
Bu çalışmanın amacı,
KYSOP modellerinin etkinlik düzeylerini,
hangi dillerde puanlama yapmaya yönelik hazırlandıklarını,
modelleri test etmek için kullanılan testlerin özelliklerini ve pilotlama aşamalarını
belirlemeye çalışarak
KYSOP’un anlaşılmasına katkıda bulunmak
KYSOP araştırmalarındaki güncel eğilimleri ortaya koymaktır.
Yöntem - I
Bu çalışma, sistematik derleme ve meta analiz çalışmaları için raporlama protokolü PRISMA (Moher vd., 2009) baz
alınarak hazırlanmıştır.
Bilgi Kaynakları ve Tarama
Google Akademi
23.07.2024
Son 10 yıl
"automatic short answer grading" OR "automatic short answer scoring" OR "automated short answer grading" OR
"automated short answer scoring"
Araştırmaya Dahil Etme Kriterleri
Son 10 yıl içinde yayınlanmış KYSOP çalışmalarından, geliştirilen model, modelde kullanılan yöntem ve teknik, kullanılan
test ve veri setinin özellikleri ve modelin performans ölçütleri hakkında yeterli bilgi içeren tüm yayınlar çalışma kapsamına
alınmıştır.
Yöntem - II
Veri Kodlama ve Analizi
İki değerlendirici, yanlılığı önlemek için her yayını bağımsız olarak bir kodlama şeması kullanarak kodlayacaktır.
Kodlama şeması (şu an için) aşağıdakileri içermektedir:
Inclusion / Exclusion Decision
Exclusion Reason
Country
Language
Dataset Type
Dataset Name
Dataset Availability
Domain
Number of Human Raters (HRs)
Agr. or Cor. Between HRs
Model Method / Approach
Model Architecture / Structure
Algorithm / Tecnique
Model Availability
Validation Method
Performance Measures
PRISMA Flowchart
Bulgular
Language Frequency
English 83
Indonesian 13
Japanese 7
Chinese 5
German 5
Arabic 3
Korean 1
Portuguese 1
Italian 1
Dutch 1
Finnish 1
Turkish 1
Thai 1
NA 1
Dataset Name f
Mohler11 23
SciEntsBank 16
ASAP / ASAP-SAS 7
Beetle 5
Mohler09 4
PISA 3
Powergrading 3
UKARA 1.0 3
RfU 1
Biology Dataset 1
RIKEN 1
SQuAD 2.0 1
Rahutomo Dataset 1
TIMSS 2003 1
STS 250 SEMEval 2017 Arabic-Arabic 1
Dt-grade 1
Japanese Reading Comprehension Test 1
SciEntsBank (Translated) 1
CREG 1
Dclean (subset of the Real Data) 1
N of Human Raters f
Human Mentioned without N 54
2 Human Raters 35
No Human Mentioned 16
3+ Human Raters 10
1 Human Raters 3
Human Agreement / Correlation f
No Mention 98
Exact Measure 27
Described 1
Pearson’s r
Spearman’s rho
QWKappa
Mean Absolute Error
Data Set Name Agr. Cor. Between HRs Measure: Pearson's r Measure: RMSE Measure: F1 Score Measure: Accuracy Measure: Other
Mohler11 Pearson's r: 0.54 0.67
Mohler11 NA MAE: 0.82
Mohler11 Spearman's rho: 0.68 Spearman's rho: 0.50
Mohler11 NA 0.61
Mohler11 NA question-by-question basis
Mohler11 NA 0.55 0.83 MAE: 0.49
Mohler11 NA 0.9 0.57
Mohler11 NA 0.47 0.88
Mohler11 NA 0.57 0.8
Mohler11 Pearson's r: 0.59 0.7 0.79
Mohler11 NA 0.66 0.89 MAE: 0.62
Mohler11 NA 0.82
Mohler11 NA 0.485 0.978
Mohler11 NA 0.51 0.78
Mohler11 MAE: 0.75 MAE: 0.41 - 0.47 (for 6 Lang)
Mohler11 NA 0.73 0.72 MAE: 0.42
Mohler11 NA 0.95 0.04
Mohler11 NA 0.805
Mohler11 NA 0.897 0.827 MAE: 0.248 Cohen's Kappa: 0.82
Mohler11 NA 0.82 0.69
Mohler11 NA 0.762
Mohler11 NA 0.65
Mohler11 NA 0.777 0.732
Sonuç ve Tartışma
Çalışmalar çoğunlukla doğal dil işleme alanında uzmanlaşmış mühendisler tarafından yürütüldüğü için
genellikle modellerin teknik ayrıntıları üzerinde durulmaktadır.
Veri setlerinin özellikleri üzerinde çok az durulmaktadır.Çoğu yayın soru sayısını ve soru özelliklerinden hiç
bahsetmemektedir.
Az sayıda benchmark veri seti bulunsa da araştırmacılar genelde veri setlerinin bir kısmını kullandıkları için
sağlıklı karşılaştırmalar yapmak kimi zaman olanaksızlaşmaktadır.
Veri setleri bazı durumlarda bir ya da birk maddeden oluşmaktadır. Madde ya da soru yerine dataset
ifadesinin kullanıldığı birk yayın tespit edilmiştir.
Veri setleri büyük oranda birk alanda kümelenmiştir.
Modellerin geniş ölçekli, soru sayısının daha fazla olduğu ve daha kapsamlı uygulamalarda test edilmediği
belirlenmiştir.
40 Primary veri setinin 5 tanesi, 78 modelin ise 10 tanesi erişime açıktır.
Türkiye’den erişime açık bir veri seti ya da model bulunmamaktadır.
Primary veri setlerindeki maddelerin geliştirilme aşamalarına yönelik hiçbir yayında bilgi bulunmamaktadır.
Genelde assignment ya da exam verileri kullanılmaktadır.
36 veri seti için puanlayıcıdan bahsedilmesine ya da puanlayıcı sayısı verilmesine rağmen puanlayıcılar arası
tutarlılık katsayıları belirtilmemiştir.
Farklı yayınlarda aynı veri setine ait puanlayıcılar arası tutarlılık farklı raporlanmıştır.
Tutarlılık ölçümleri madde bazında ya da test bazında raporlanabilmektedir fakat yönteme yönelik
neredeyse hiç bir açıklama yer almamaktadır.
Aynı ekip aynı veri setini kullandıkları iki farklı çalışmada farklı tür uyum katsayıları raporlamışlardır.
Raporlanan Pearson korelasyon katsayıları 0.54 ile 0.985 arasında değişmektedir.
Yayınlarda amaç genelde önerilen modelin baseline modellerden daha iyi performans göstermesi olarak
zlenmiştir. (?)
Modellerin ayarlanması (fine-tune, runtime vs)ve doğrulanması (validation) konuları bazı yanlarda yer
almamaktadır ya da yetersiz verilmektedir.
KYS-OP Eğilimleri ve Öne Çıkan Kavramlar
Ensemle and Hybrid Models
Model Explainability and Interpretability
Robustness Against Adversial Attacks
Generalization Across Languages
Feedback and Personalized Learning
Data Augmentation
Domain-specific vs. Domain-general
Human-in-the-Loop vs. Semi-supervised vs. Unsupervised
Dinlediğiniz için teşekkürler
gurkan.cuvitoglu@ege.edu.tr
burak.aydin@ege.edu.tr
tarik.kisla@ege.edu.tr
hakan.atilgan@ege.edu.tr