9. Uluslararası Eğitimde ve Psikolojide Ölçme ve Değerlendirme Kongresi

Bir Sistematik Derleme Çalışması:

Ölçme ve Değerlendirme Perspektifinden

Kısa Yanıtlı Soruların Otomatik Puanlanması

Öğr. Gör. Gürkan CÜVİTOĞLU

Doç. Dr. Burak AYDIN

Prof. Dr. Tarık KIŞLA

Prof. Dr. Hakan ATILGAN

Giriş

•Kısa Yanıtlı Sorular (KYS)

•Kısa yanıtlı soruların yanıtı bir kelime, bir sembol, bir rakam, bir ifade ya da basit yapıda bir cümle (Atılgan,

Kan ve Aydın, 2017:167)olabileceği gibi bir cümle ile bir paragraf arasında da olabilir (Burrows, Gurevych

ve Stein, 2015).

•Avantajları ve Dezavantajları

•Constructed Response

•Üst düzey bilişsel becerilerin yoklanması (bilgi, beceri ve yetenek)

•Puanlama objektifliği ve kolaylığı

•Sorulabilecek soru sayısı

•Şans başarısı

•PISA, TIMMS, PIRLS,

•MEB ve ÖSYM

Otomatik Puanlama

•1960’lar: Project Essay Grade

•1990’lar: Doğal Dil İşlemedeki (Natural Language Processing, NLP) İlerleme

•2000’ler: Kısa Yanıtlı Soruların Otomatik Puanlanması (KYS-OP)

(Burrows, Gurevych ve Stein, 2015)

KYSOP Genel Mimari

Kısa Yanıtlı Soruların Otomatik Puanlanması

•KYS-OP’un önemi ve avantajları

•Objektiflik

•Tutarlılık

•Zaman Tasarrufu

•Emek Tasarrufu

•Kaynak Tasarrufu

•Geri Bildirim

Bu çalışmayı yapma motivasyonumuz

"Kısa Yanıtlı Soruların Açık Kaynak Kodlu Yazılımla Özdevinimli Puanlanması"

başlıklı TÜBİTAK 3005 projesidir.

cevaplab.org

Problem Durumu

•KYS-OP modellerinin gelişimi, metodolojisi ve güncel eğilimini ortaya koymak

•KYS-OP modellerinin test edilmesinde kullanılan veri setleri ve özellikleri belirlemek

•KYS-OP modellerinin doğrulama (validation) çalışmalarını incelemek

•KYS-OP modellerinin performanslarının gelişimi ve mevcut durumunu incelemek

•Türkiye’de geniş ölçekli testlerde KYS-OP uygulamak

•Türkiye’de geliştirilen KYS-OP modellerini belirlemek

Çalışmanın Amacı

Bu çalışmanın amacı,

•KYSOP modellerinin etkinlik düzeylerini,

•hangi dillerde puanlama yapmaya yönelik hazırlandıklarını,

•modelleri test etmek için kullanılan testlerin özelliklerini ve pilotlama aşamalarını

belirlemeye çalışarak

•KYSOP’un anlaşılmasına katkıda bulunmak

•KYSOP araştırmalarındaki güncel eğilimleri ortaya koymaktır.

Yöntem - I

•Bu çalışma, sistematik derleme ve meta analiz çalışmaları için raporlama protokolü PRISMA (Moher vd., 2009) baz

alınarak hazırlanmıştır.

•Bilgi Kaynakları ve Tarama

•Google Akademi

•23.07.2024

•Son 10 yıl

•"automatic short answer grading" OR "automatic short answer scoring" OR "automated short answer grading" OR

"automated short answer scoring"

•Araştırmaya Dahil Etme Kriterleri

•Son 10 yıl içinde yayınlanmış KYSOP çalışmalarından, geliştirilen model, modelde kullanılan yöntem ve teknik, kullanılan

test ve veri setinin özellikleri ve modelin performans ölçütleri hakkında yeterli bilgi içeren tüm yayınlar çalışma kapsamına

alınmıştır.

Yöntem - II

•Veri Kodlama ve Analizi

•İki değerlendirici, yanlılığı önlemek için her yayını bağımsız olarak bir kodlama şeması kullanarak kodlayacaktır.

•Kodlama şeması (şu an için) aşağıdakileri içermektedir:

•Inclusion / Exclusion Decision

•Exclusion Reason

•Country

•Language

•Dataset Type

•Dataset Name

•Dataset Availability

•Domain

•Number of Human Raters (HRs)

•Agr. or Cor. Between HRs

•Model Method / Approach

•Model Architecture / Structure

•Algorithm / Tecnique

•Model Availability

•Validation Method

•Performance Measures

PRISMA Flowchart

Bulgular

Language Frequency

English 83

Indonesian 13

Japanese 7

Chinese 5

German 5

Arabic 3

Korean 1

Portuguese 1

Italian 1

Dutch 1

Finnish 1

Turkish 1

Thai 1

NA 1

Dataset Name f

Mohler11 23

SciEntsBank 16

ASAP / ASAP-SAS 7

Beetle 5

Mohler09 4

PISA 3

Powergrading 3

UKARA 1.0 3

RfU 1

Biology Dataset 1

RIKEN 1

SQuAD 2.0 1

Rahutomo Dataset 1

TIMSS 2003 1

STS 250 SEMEval 2017 Arabic-Arabic 1

Dt-grade 1

Japanese Reading Comprehension Test 1

SciEntsBank (Translated) 1

CREG 1

Dclean (subset of the Real Data) 1

N of Human Raters f

Human Mentioned without N 54

2 Human Raters 35

No Human Mentioned 16

3+ Human Raters 10

1 Human Raters 3

Human Agreement / Correlation f

No Mention 98

Exact Measure 27

Described 1

•Pearson’s r

•Spearman’s rho

•QWKappa

•Mean Absolute Error

Data Set Name Agr. Cor. Between HRs Measure: Pearson's r Measure: RMSE Measure: F1 Score Measure: Accuracy Measure: Other

Mohler11 Pearson's r: 0.54 0.67

Mohler11 NA MAE: 0.82

Mohler11 Spearman's rho: 0.68 Spearman's rho: 0.50

Mohler11 NA 0.61

Mohler11 NA question-by-question basis

Mohler11 NA 0.55 0.83 MAE: 0.49

Mohler11 NA 0.9 0.57

Mohler11 NA 0.47 0.88

Mohler11 NA 0.57 0.8

Mohler11 Pearson's r: 0.59 0.7 0.79

Mohler11 NA 0.66 0.89 MAE: 0.62

Mohler11 NA 0.82

Mohler11 NA 0.485 0.978

Mohler11 NA 0.51 0.78

Mohler11 MAE: 0.75 MAE: 0.41 - 0.47 (for 6 Lang)

Mohler11 NA 0.73 0.72 MAE: 0.42

Mohler11 NA 0.95 0.04

Mohler11 NA 0.805

Mohler11 NA 0.897 0.827 MAE: 0.248 Cohen's Kappa: 0.82

Mohler11 NA 0.82 0.69

Mohler11 NA 0.762

Mohler11 NA 0.65

Mohler11 NA 0.777 0.732

Sonuç ve Tartışma

•Çalışmalar çoğunlukla doğal dil işleme alanında uzmanlaşmış mühendisler tarafından yürütüldüğü için

genellikle modellerin teknik ayrıntıları üzerinde durulmaktadır.

•Veri setlerinin özellikleri üzerinde çok az durulmaktadır.Çoğu yayın soru sayısını ve soru özelliklerinden hiç

bahsetmemektedir.

•Az sayıda benchmark veri seti bulunsa da araştırmacılar genelde veri setlerinin bir kısmını kullandıkları için

sağlıklı karşılaştırmalar yapmak kimi zaman olanaksızlaşmaktadır.

•Veri setleri bazı durumlarda bir ya da birkaç maddeden oluşmaktadır. Madde ya da soru yerine dataset

ifadesinin kullanıldığı birkaç yayın tespit edilmiştir.

•Veri setleri büyük oranda birkaç alanda kümelenmiştir.

•Modellerin geniş ölçekli, soru sayısının daha fazla olduğu ve daha kapsamlı uygulamalarda test edilmediği

belirlenmiştir.

•40 Primary veri setinin 5 tanesi, 78 modelin ise 10 tanesi erişime açıktır.

•Türkiye’den erişime açık bir veri seti ya da model bulunmamaktadır.

•Primary veri setlerindeki maddelerin geliştirilme aşamalarına yönelik hiçbir yayında bilgi bulunmamaktadır.

Genelde assignment ya da exam verileri kullanılmaktadır.

•36 veri seti için puanlayıcıdan bahsedilmesine ya da puanlayıcı sayısı verilmesine rağmen puanlayıcılar arası

tutarlılık katsayıları belirtilmemiştir.

•Farklı yayınlarda aynı veri setine ait puanlayıcılar arası tutarlılık farklı raporlanmıştır.

•Tutarlılık ölçümleri madde bazında ya da test bazında raporlanabilmektedir fakat yönteme yönelik

neredeyse hiç bir açıklama yer almamaktadır.

•Aynı ekip aynı veri setini kullandıkları iki farklı çalışmada farklı tür uyum katsayıları raporlamışlardır.

•Raporlanan Pearson korelasyon katsayıları 0.54 ile 0.985 arasında değişmektedir.

•Yayınlarda amaç genelde önerilen modelin baseline modellerden daha iyi performans göstermesi olarak

gözlenmiştir. (?)

•Modellerin ayarlanması (fine-tune, runtime vs)ve doğrulanması (validation) konuları bazı yayınlarda yer

almamaktadır ya da yetersiz verilmektedir.

KYS-OP Eğilimleri ve Öne Çıkan Kavramlar

•Ensemle and Hybrid Models

•Model Explainability and Interpretability

•Robustness Against Adversial Attacks

•Generalization Across Languages

•Feedback and Personalized Learning

•Data Augmentation

•Domain-specific vs. Domain-general

•Human-in-the-Loop vs. Semi-supervised vs. Unsupervised

Dinlediğiniz için teşekkürler

gurkan.cuvitoglu@ege.edu.tr

burak.aydin@ege.edu.tr

tarik.kisla@ege.edu.tr

hakan.atilgan@ege.edu.tr