MMLU Nedir ve Yapay Zeka Modelleri Gerçekten Ne Kadar Zeki?

Bir yapay zeka modelinin ne kadar "zeki" olduğunu ölçmek için ne gerekir? Bu sorunun cevabı, yıllarca yapay zeka araştırmacılarını meşgul etti. Modeller tek görevde mükemmelleşirken başka alanlarda sıradan kalabiliyordu. MMLU, bu sorunu çözmek için tasarlanmış ve bugün hâlâ en çok atıf gören LLM değerlendirme kıstaslarından biri olmayı sürdürüyor. Ancak 2026 itibarıyla tablonun çok daha karmaşık bir hal aldığını görmek gerekiyor.

MMLU (Massive Multitask Language Understanding), büyük dil modellerinin (LLM) bilgi ve problem çözme yeteneklerini 57 farklı akademik ve profesyonel alanda sınayan çok görevli bir değerlendirme kıstasıdır (benchmark). İlkokul matematiğinden ABD tarihine, bilgisayar biliminden tıp hukukuna uzanan çoktan seçmeli sorulardan oluşan bu test, bir modelin genel bilgi düzeyini ve sıfır veya az örnek (zero-shot ve few-shot) koşullarında akıl yürütme kapasitesini ölçer. Yüksek bir MMLU puanı, modelin yalnızca tek bir alana değil, geniş bir bilgi yelpazesine hakim olduğunun göstergesi olarak değerlendirilir.

İçindekiler

MMLU Neden Ortaya Çıktı?
MMLU Nasıl Çalışır?
MMLU Skoru Ne Anlama Gelir?
MMLU'nun Sınırları: Benchmark Doygunluğu ve Kontaminasyon Sorunu
MMLU-Pro Nedir ve Neden Geliştirildi?
2026'da LLM Değerlendirmesinin Yeni Yönü Nereye Gidiyor?
MMLU Skoruna Bakarak Model Seçimi Yapılır mı?
TL;DR
Sonuç

MMLU Neden Ortaya Çıktı?

Kısa cevap: Çünkü daha önce kullanılan benchmark'lar, hızla gelişen LLM'ler tarafından çok çabuk aşılıyordu.

2018'de tanıtılan GLUE (General Language Understanding Evaluation) ve 2019'daki halefi SuperGLUE, zamanla modelleşmiş değerlendirme standartları olarak öne çıktı. Ancak modeller bu testlerde kısa sürede insan performansına ulaşmaya ya da geçmeye başladı. Sorun şuydu: Bu başarı, gerçek anlamda derin bir kavrayışı mı temsil ediyordu, yoksa test formatına özgü bir optimizasyonun mu ürünüydü?

MMLU, 2020 yılında Dan Hendrycks ve ekibinin "Measuring Massive Multitask Language Understanding" başlıklı makalesiyle kamuoyuna sunuldu. Temel motivasyon, mevcut benchmark'ların çok dar bir alanı ölçmesi ve bu nedenle modeller arasındaki gerçek yetenek farklarını ortaya koyamamasıydı. GLUE 9 görev içerirken MMLU bu sayıyı 57'ye çıkardı ve soruları lise seviyesinden profesyonel uzmanlık gerektiren konulara kadar genişletti.

Hedef netti: Modellerin eğitim verisindeki kalıpları taklit etmesini değil, gerçekten öğrenilmiş bilgiyi ölçen bir araç yaratmak. Bu yaklaşım, yapay zeka araştırma camiasında hızla benimsendi ve MMLU, model karşılaştırmalarında evrensel bir referans noktasına dönüştü.

MMLU Nasıl Çalışır?

MMLU, 57 farklı konu alanını kapsayan 16.000'den fazla çoktan seçmeli sorudan oluşur. Her soru dört seçenek içerir ve yalnızca biri doğrudur.

Konu alanları dört ana kategoride gruplandırılmıştır: beşeri bilimler (hukuk, felsefe, tarih), sosyal bilimler (ekonomi, psikoloji, siyaset bilimi), STEM alanları (matematik, fizik, bilgisayar bilimi, tıp) ve diğer profesyonel alanlar (muhasebe, beslenme, iş etiği). Bu geniş yelpaze, modelin yalnızca bir konuya odaklanarak yüksek skor elde etmesini neredeyse imkânsız kılar.

Değerlendirmede iki temel paradigma kullanılır. Sıfır-örnek (zero-shot) değerlendirmede modele konu hakkında hiçbir örnek soru gösterilmez; yalnızca test sorusu ve dört seçenek sunulur. Az-örnek (few-shot) değerlendirmede ise genellikle beş örnek soru ve cevap önceden verilir, ardından asıl soru yöneltilir. Bu yaklaşım, modelin görev formatına uyum sağlamak için özel olarak ince ayar (fine-tune) yapılıp yapılmadığını değil, ön eğitim sürecinde edindiği genel bilgiyi ölçmeyi amaçlar.

Sorular, ders kitapları, standart sınavlar, akademik yayınlar ve çevrimiçi eğitim materyallerinden derlenmektedir. Tıp sorusu bir uzmandan beklenen bilgi düzeyini gerektirirken, lise matematiği sorusu daha temel bir anlayışı test eder. Bu heterojenlik, MMLU'yu hem kapsayıcı hem de zorlu kılan temel özelliğidir.

MMLU Skoru Ne Anlama Gelir?

MMLU skoru, modelin tüm 57 konu alanındaki ortalama doğruluk oranıdır ve yüzde cinsinden ifade edilir. Referans noktası olarak ortalama bir yetişkin insanın bu testte yaklaşık yüzde 34 civarında şans seviyesi skor aldığı bilinmektedir; uzman düzeyindeki insanların belirli konularda yüzde 89-90 bandına ulaştığı gözlemlenmiştir.

MMLU'nun yapay zeka araştırmaları açısından önemi birkaç boyuttan kaynaklanır. Standartlaşmış karşılaştırma imkânı sunar; farklı mimarilere sahip, farklı şirketler tarafından geliştirilen modeller aynı kıstas üzerinden kıyaslanabilir. Geniş konu kapsamı sayesinde modelin yalnızca tek bir alanda uzmanlaşması yüksek genel skor için yetmez. Ayrıca sıfır-örnek değerlendirme paradigması, gerçek genelleştirme kapasitesini ortaya koymak için belirli bir kılavuz değeri taşır.

Ancak bu skoru yorumlarken dikkatli olmak gerekir. 2024 sonlarından itibaren öne çıkan bir sorun, MMLU tavan etkisine ulaşmaya başlamıştır. Sınır modeller yüzde seksen sekizin üzerine yerleşmiş durumda ve bu noktada MMLU puanları artık önde gelen modeller arasındaki farkları anlamlı biçimde ortaya koyamıyor.

MMLU Nedir ve Yapay Zeka Modelleri Gerçekten Ne Kadar Zeki?

MMLU'nun Sınırları: Benchmark Doygunluğu ve Kontaminasyon Sorunu

MMLU'nun iki temel sınırlaması özellikle 2025-2026 döneminde araştırmacıların gündemine taşındı: benchmark doygunluğu (benchmark saturation) ve eğitim verisi kontaminasyonu (training data contamination).

Benchmark doygunluğu, bir testin artık modeller arasında anlamlı bir ayrım yapamaması durumunu tanımlar. MMLU'da üst modeller yüzde seksen sekiz ile doksan dört arasına yerleşmiş ve bu benchmark artık sınır modelleri birbirinden ayırt edemiyor hale geldi. Bu durum, MMLU'nun sağladığı başarının göreceliliğini de sorgulatmaktadır: Skor yakınlığı, gerçek performans eşdeğerliğini mi yansıtıyor, yoksa testin artık yeterince ayrıştırıcı olmadığını mı gösteriyor?

Kontaminasyon sorunu ise çok daha temelden tartışmalıdır. MMLU gibi açık kaynaklı benchmark'ların kaçınılmaz olarak eğitim verisi sızıntısına maruz kalması, değerlendirme sonuçlarının güvenilirliğini zedelemektedir. Bir modelin MMLU sorularının bir kısmını ön eğitim sırasında görmüş olması durumunda, puanı gerçek muhakeme kapasitesini değil büyük ölçüde ezberi yansıtır.

MMLU-CF (Contamination-Free) versiyonu bu soruna yanıt olarak geliştirildi; dezenformasyon kuralları, seçenek karıştırma ve kapalı kaynaklı test seti kullanarak veri sızıntısını önlemeyi hedefliyor. Değerlendirmeler, üst modellerin MMLU-CF'te özgün MMLU'ya kıyasla 14 ila 16 puan daha düşük skor elde ettiğini ortaya koydu. Bu fark, kontaminasyonun yayımlanmış skorları ne ölçüde şişirdiğini somutlaştırıyor.

Kontaminasyonun pratik etkisi de belgelenmiştir. Epoch AI'ın Ocak 2026'da yayımladığı kapsamlı analiz, Temmuz 2025 ile Ocak 2026 arasında piyasaya çıkan 14 sınır modelin tamamının test edilen beş temel benchmark'ın en az üçünde istatistiksel açıdan anlamlı eğitim verisi örtüşmesi gösterdiğini ortaya koydu. Bazı modellerde MMLU test sorularıyla tahmini kontaminasyon oranı yüzde on ikiyi aşıyor; bu oran, sağlayıcıların üzerinde rekabet ettiği tek haneli puan farklarında 8 ila 15 puan şişirme anlamına geliyor.

MMLU-Pro Nedir ve Neden Geliştirildi?

MMLU-Pro, orijinal MMLU'nun sınırlamalarını aşmak için tasarlanmış ve 2024 yılında tanıtılan gelişmiş bir değerlendirme kıstasıdır.

Temel farklar şunlardır: MMLU dört seçenek sunarken MMLU-Pro on seçenek içerir; bu değişiklik bile şans puanını yüzde yirmi beşten yüzde ona düşürür. Sorular çok adımlı muhakeme gerektiren, bilgi ve akıl yürütmenin entegre edildiği problemlere doğru kaymıştır. Konu başlıkları da genişletilmiş ve daha fazla STEM ağırlığı taşıyan bir dağılıma kavuşturulmuştur.

2026 başı itibarıyla sınır LLM'ler MMLU-Pro'da yüzde doksana yaklaşmış durumda; Gemini 3 Pro yaklaşık yüzde doksan virgül bir ile öncülük ediyor. Bu tablo, MMLU-Pro'nun da yakın vadede aynı doygunluk sorunuyla karşılaşabileceğine işaret ediyor. Benchmark geliştirme ile model kapasitesi arasındaki bu yarış, yapay zeka değerlendirme ekosisteminin kalıcı bir gerilimini yansıtmaktadır.

2026'da LLM Değerlendirmesinin Yeni Yönü Nereye Gidiyor?

MMLU ve MMLU-Pro'nun doygunluk sinyalleri vermesiyle birlikte araştırmacılar ve uygulayıcılar daha sağlam alternatifler geliştiriyor.

Çeşitli kategorilerde öne çıkan benchmark'lar farklı amaçlara hizmet ediyor. Kodlama yeteneklerini ölçmek için LiveCodeBench tercih edilmektedir çünkü sorular düzenli olarak yenilenmekte ve bu sayede ezber sorunu büyük ölçüde engellenmektedir. Matematiksel muhakeme için MATH-500 ve AIME problemleri çok adımlı sembolik düşünmeyi test eder. Gerçekçi yazılı görevler için HELM, gerçek kullanıcı sorgularına yakın dinamik değerlendirmeler sunar. İnsan tercihine dayalı değerlendirme için ise LMSYS Chatbot Arena, gerçek kullanıcıların perde arkasını bilmeden iki model arasında seçim yaptığı çift-kör karşılaştırmalar aracılığıyla doğal bir ölçüm sağlar.

Önemli bir yönelim de dile özgü değerlendirmelerin artmasıdır. Türkçe için TR-MMLU ve TUMLU gibi dile özgü benchmark'lar geliştirilmekte; bu çalışmalar kültürel, morfolojik ve tipografik çeşitliliğin yarattığı değerlendirme güçlüklerini ele almaktadır. MMLU'nun ağırlıklı olarak İngilizce ve Batı akademik bağlamını baz alması, küresel değerlendirmelerde ciddi bir sınırlamaya dönüşmektedir.

MMLU Skoruna Bakarak Model Seçimi Yapılır mı?

Bu soru, yapay zeka değerlendirmesi konusunda en sık yapılan hatalardan birinin tam merkezinde durmaktadır.

Bir üretim sistemine model seçerken MMLU skoru tek başına yeterli bir kıstas değildir. Bir benchmark'ın yayımlanmış skoru, yalnızca üç koşul sağlandığında üretim performansını öngörebilir: Benchmark, kullanım senaryonuza benzer görevleri test ediyorsa; test seti eğitim verisi kontaminasyonundan arınmışsa; ve benchmark puanları arasındaki farkların istatistiksel olarak anlamlı olduğu bir doygunluk noktasına ulaşılmamışsa.

Bu nedenle doğru yaklaşım şudur: MMLU gibi genel benchmark'ları yönelim göstergesi olarak kullanın, ancak kendi veri setinizde, kendi görev tanımınıza ve latency ile maliyet kısıtlarınıza göre değerlendirme yapın. Hukuki belge analizi için yüksek MMLU skoru olan bir model, alan spesifik bir finansal çıkarım görevinde beklentinin çok altında kalabilir. Benchmark puanları modeller arası genel karşılaştırma için hâlâ değerli bir başlangıç noktasıdır; ancak üretim kararı vermek için yeterli değildir.

TL;DR

MMLU, 57 akademik ve profesyonel alanı kapsayan, LLM'lerin genel bilgi ve akıl yürütme kapasitesini sıfır ve az-örnek koşullarında ölçen temel bir benchmark'tır. 2024-2025 itibarıyla sınır modeller bu testte doygunluk eşiğine ulaşmış; kontaminasyon analizleri yayımlanan skorların 8-15 puan şişirilmiş olabileceğini göstermiştir. MMLU-Pro, daha zorlu sorular ve on seçenek sunarak bu sınırlamayı aşmaya çalışmaktadır; ancak 2026 başı itibarıyla bu benchmark da yüzde doksana yakın skorlarla benzer bir doyum sürecine girebilir. Genel benchmark skorlarını yön tayini için kullanmak değerlidir; fakat üretim ortamı kararları için alan spesifik değerlendirmeler vazgeçilmezdir.

Sonuç

MMLU, büyük dil modellerinin genel bilgi ve muhakeme kapasitesini ölçmek için önemli bir başlangıç noktası olmayı sürdürmektedir. Tarihsel rolü inkar edilemez; modellerin farklı alanlardaki yeteneklerini standartlaştırılmış biçimde karşılaştırabilme imkânı sunmuş ve yapay zeka araştırmasında yıllarca yol gösterici olmuştur.

Ancak 2026 itibarıyla bu benchmark tek başına yeterli değil. Doygunluk, kontaminasyon ve alan özgüllüğü sorunları, değerlendirme ekosistemini daha geniş, daha dinamik ve daha bağlama duyarlı araçlara doğru zorlamaktadır. Model seçimi süreçlerinde yayımlanmış benchmark skorlarını bir başlangıç referansı olarak değerlendirmek, ardından kendi gerçek veri ve görev tanımınıza göre doğrulama yapmak bugün en güvenilir yaklaşım olmaya devam etmektedir.

Kullanım senaryonuza uygun LLM değerlendirme çerçevesi oluşturmak ve doğru model seçimi yapmak ister misiniz? Teknik ekibimizle bir değerlendirme görüşmesi planlayın.

‍

Kaynaklar

DataCamp, "What is MMLU? LLM Benchmark Explained and Why It Matters

İlginizi Çekebilecek Diğer İçeriklerimiz

Nöromorfik Hesaplama Nedir? Nasıl Çalışır ve Faydaları Nelerdir?

Nöromorfik hesaplama, biyolojik sinir sistemlerinin yapısından ilham alan bir bilgisayar mühendisliği ve nörobilim disiplinidir. Temel amacı, insan beyninin olağanüstü enerji verimliliğini ve paralel işlem kapasitesini yapay sistemlere aktarmaktır.

DETAYLI İNCELE

E-Ticaret Sektöründe Yapay Zeka Nasıl Kullanılır?

Yapay zeka, e-ticaret sektöründe kişiselleştirmeden tedarik zinciri optimizasyonuna, dolandırıcılık tespitinden içerik üretimine kadar neredeyse her operasyonel katmanı dönüştüren bir teknoloji haline geldi. Bloomreach'in araştırmasına göre e-ticaret işletmelerinin yüzde seksen dördü yapay zekayı en öncelikli stratejik gündem maddesi olarak tanımlıyor. Bu oran, yapay zekanın artık deneysel bir alan olmaktan çıkıp sektörün rekabet zeminini yeniden çizdiğini açıkça ortaya koyuyor.

DETAYLI İNCELE

MMLU Nedir ve Yapay Zeka Modelleri Gerçekten Ne Kadar Zeki?

MMLU Nedir ve Yapay Zeka Modelleri Gerçekten Ne Kadar Zeki?

MMLU Nedir ve Yapay Zeka Modelleri Gerçekten Ne Kadar Zeki?

İçindekiler

MMLU Neden Ortaya Çıktı?

MMLU Nasıl Çalışır?

MMLU Skoru Ne Anlama Gelir?

MMLU'nun Sınırları: Benchmark Doygunluğu ve Kontaminasyon Sorunu

MMLU-Pro Nedir ve Neden Geliştirildi?

2026'da LLM Değerlendirmesinin Yeni Yönü Nereye Gidiyor?

MMLU Skoruna Bakarak Model Seçimi Yapılır mı?

TL;DR

Sonuç

İlginizi Çekebilecek Diğer İçeriklerimiz

İçindekiler

MMLU Neden Ortaya Çıktı?

MMLU Nasıl Çalışır?

MMLU Skoru Ne Anlama Gelir?

MMLU'nun Sınırları: Benchmark Doygunluğu ve Kontaminasyon Sorunu

MMLU-Pro Nedir ve Neden Geliştirildi?

2026'da LLM Değerlendirmesinin Yeni Yönü Nereye Gidiyor?

MMLU Skoruna Bakarak Model Seçimi Yapılır mı?

TL;DR

Sonuç

LC Waikiki - Büyük Veri Platformu Başarı Hikayesi

Başarılı İş Ortaklarımıza Katılın!

Sizi Tanımak için Sabırsızlanıyoruz