•Primary veri setlerindeki maddelerin geliştirilme aşamalarına yönelik hiçbir yayında bilgi bulunmamaktadır.
Genelde assignment ya da exam verileri kullanılmaktadır.
•36 veri seti için puanlayıcıdan bahsedilmesine ya da puanlayıcı sayısı verilmesine rağmen puanlayıcılar arası
tutarlılık katsayıları belirtilmemiştir.
•Farklı yayınlarda aynı veri setine ait puanlayıcılar arası tutarlılık farklı raporlanmıştır.
•Tutarlılık ölçümleri madde bazında ya da test bazında raporlanabilmektedir fakat yönteme yönelik
neredeyse hiç bir açıklama yer almamaktadır.
•Aynı ekip aynı veri setini kullandıkları iki farklı çalışmada farklı tür uyum katsayıları raporlamışlardır.
•Raporlanan Pearson korelasyon katsayıları 0.54 ile 0.985 arasında değişmektedir.
•Yayınlarda amaç genelde önerilen modelin baseline modellerden daha iyi performans göstermesi olarak
gözlenmiştir. (?)
•Modellerin ayarlanması (fine-tune, runtime vs)ve doğrulanması (validation) konuları bazı yayınlarda yer
almamaktadır ya da yetersiz verilmektedir.