GRPO Nedir? Nasıl Çalışır?

Yapay zeka modellerinin eğitimi, yalnızca daha büyük veri setleriyle değil, aynı zamanda daha akıllı algoritmalarla da şekilleniyor. Dil modellerinin matematiksel akıl yürütme ve kod üretimi gibi karmaşık görevlerde başarılı olması için geleneksel eğitim yöntemleri artık yeterli gelmiyor. Bu noktada, büyük dil modellerinin (Large Language Model - LLM) eğitiminde yeni bir yaklaşım olarak öne çıkan GRPO (Group Relative Policy Optimization / Grup Göreceli Politika Optimizasyonu), bellek verimliliği ve maliyet etkinliği açısından devrim yaratıyor.

GRPO, özellikle DeepSeek-Math ve DeepSeek-R1 gibi açık kaynaklı modellerde kullanılan pekiştirmeli öğrenme tekniği olarak dikkat çekiyor. Peki bu yöntem neden bu kadar önemli ve nasıl çalışıyor?

GRPO Nedir?

GRPO (Group Relative Policy Optimization), büyük dil modellerinin eğitiminde kullanılan ve pekiştirmeli öğrenme (Reinforcement Learning - RL) tabanlı bir optimizasyon algoritmasıdır. Bu yöntem, özellikle matematiksel problemler ve kod yazma gibi doğrulanabilir ödül fonksiyonlarının kullanılabildiği alanlarda modellerin performansını artırmak için tasarlanmıştır.

Geleneksel pekiştirmeli öğrenme yöntemlerinden farklı olarak GRPO, ayrı bir değer fonksiyonu (value function) modeline ihtiyaç duymaz. Bunun yerine, her bir soru için model tarafından üretilen birden fazla yanıtın ortalama ödülünü temel alarak avantaj (advantage) hesaplaması yapar. Bu yaklaşım, hem bellek kullanımını önemli ölçüde azaltır hem de eğitim sürecini daha verimli hale getirir.

GRPO'nun temel çalışma prensibi oldukça basit ama etkilidir. Model, bir soru için birden fazla yanıt üretir, bu yanıtlar bir ödül modeli tarafından puanlanır ve grup ortalamasına göre hangi yanıtların daha iyi olduğu belirlenir. Ortalamanın üzerinde puan alan yanıtlar teşvik edilirken, ortalamanın altında kalanlar cezalandırılır. Bu süreç, modelin zamanla daha iyi yanıtlar üretmesini sağlar.

Pekiştirmeli Öğrenme ve GRPO İlişkisi

Pekiştirmeli öğrenme, bir ajanın çevre ile etkileşime girerek deneme-yanılma yoluyla öğrendiği bir makine öğrenmesi yaklaşımıdır. Büyük dil modelleri söz konusu olduğunda, model bir soru (gözlem) alır, bir yanıt (eylem) üretir ve bu yanıtın kalitesine göre bir ödül veya ceza alır. Amaç, zaman içinde toplam ödülü maksimize etmektir.

Denetimli ince ayar (Supervised Fine-Tuning - SFT) yöntemlerinde modeller, önceden etiketlenmiş veri setleri üzerinden eğitilir. Ancak bu yaklaşımın ciddi sınırlamaları vardır. Etiketli veri toplamak hem maliyetli hem de zaman alıcıdır. Ayrıca, modelin eğitim verilerine aşırı uyum sağlaması (overfitting) riski de bulunur.

GRPO ise bu sınırlamaları aşmak için tasarlanmıştır. Etiketli veriye ihtiyaç duymadan, yalnızca bir doğrulama mekanizması ile çalışır. Örneğin, matematiksel bir problemde üretilen yanıtın doğru olup olmadığını kontrol etmek için bir derleyici, birim testleri veya linter gibi araçlar kullanılabilir. Bu sayede, insan müdahalesi olmadan model kendini geliştirebilir.

GRPO Nasıl Çalışır?

GRPO'nun çalışma mantığı, grup bazlı bir değerlendirme sistemine dayanır. Süreç, şu adımlarla ilerler:

İlk olarak, model belirli bir soru için birden fazla aday yanıt üretir. DeepSeek-Math modelinde bu sayı genellikle 64'tür. Her bir yanıt, programlanabilir ödül fonksiyonları tarafından değerlendirilir. Bu fonksiyonlar, yanıtın doğruluğunu, biçim uyumluluğunu veya kod kalitesini ölçebilir.

Ardından, üretilen tüm yanıtların ortalama ödülü hesaplanır. Bu ortalama, bir baseline (temel çizgi) görevi görür. Her yanıtın ödülü bu ortalama ile karşılaştırılır ve böylece avantaj değeri belirlenir. Ortalamanın üzerinde performans gösteren yanıtlar pozitif avantaj, altında kalanlar ise negatif avantaj alır.

Model parametreleri, bu avantaj değerlerine göre güncellenir. Yüksek avantaja sahip yanıtların üretilme olasılığı artırılırken, düşük avantaja sahip olanların olasılığı azaltılır. Bu güncelleme sırasında, modelin eski politikasından çok uzaklaşmaması için KL divergence (Kullback-Leibler sapması) gibi düzenleme mekanizmaları kullanılır.

Bu süreç, matematiksel olarak şu şekilde ifade edilebilir: Her bir soru için üretilen yanıtların ödülleri toplanır ve grup ortalaması hesaplanır. Avantaj fonksiyonu, her yanıtın ödülünden bu grup ortalamasını çıkararak bulunur. Politika güncellemesi ise, önem oranı (importance ratio) ve avantaj değerleri kullanılarak gerçekleştirilir.

GRPO ile Diğer Yöntemlerin Karşılaştırması

GRPO'nun benzersizliğini anlamak için, diğer yaygın pekiştirmeli öğrenme yöntemleriyle karşılaştırmak gerekir.

Proximal Policy Optimization (PPO), endüstride yaygın olarak kullanılan bir yöntemdir. OpenAI'ın insan geri bildirimi ile pekiştirmeli öğrenme (RLHF) sürecinde de PPO kullanılır. Ancak PPO, ayrı bir değer fonksiyonu modeline ihtiyaç duyar. Bu model, politika modeli ile benzer boyutta olduğu için önemli bir bellek ve hesaplama yükü oluşturur. GRPO ise bu değer fonksiyonunu ortadan kaldırarak bellek kullanımını yarı yarıya azaltır.

Direct Policy Optimization (DPO), PPO'nun karmaşıklığını azaltmak için geliştirilmiş bir alternatiftir. Ayrı bir ödül modeline ihtiyaç duymaz ve tercih veri çiftleri üzerinden çalışır. Ancak DPO, hala önemli miktarda insan tercih verisi gerektirir. GRPO ise otomatik doğrulama mekanizmalarıyla çalıştığı için bu veri toplama maliyetini tamamen ortadan kaldırır.

GRPO'nun en büyük avantajı, hem bellek verimliliği hem de veri gereksinimleri açısından diğer yöntemlere göre üstün olmasıdır. Ayrıca, grup ortalaması kullanarak varyansı azaltması, eğitim sürecini daha kararlı hale getirir.

GRPO'nun Uygulama Alanları

GRPO, özellikle doğrulama yapılabilen görevlerde yüksek performans gösterir. Matematiksel akıl yürütme, bu alanların başında gelir. DeepSeek-Math modeli, GRPO kullanılarak eğitildiğinde GSM8K veri setinde %88,2, MATH veri setinde ise %51,7 doğruluk oranına ulaşmıştır. Bu sonuçlar, 540 milyar parametreye sahip Minerva gibi çok daha büyük modelleri geride bırakmaktadır.

Kod üretimi, GRPO'nun etkinliğini gösterdiği bir diğer alandır. Üretilen kodun derlenip derlenmediği, çalışma zamanı hatası verip vermediği veya birim testlerini geçip geçmediği otomatik olarak kontrol edilebilir. Bu nedenle, GRPO kod üretimi modellerinin ince ayarında son derece kullanışlıdır.

Çok adımlı mantıksal çıkarım gerektiren görevler de GRPO'dan faydalanır. Model, bir problemi çözmek için ara adımlar üretir ve her adımın doğruluğu değerlendirilebilir. Bu sayede, model sadece son yanıtın doğruluğunu değil, aynı zamanda problem çözme sürecinin kalitesini de öğrenir.

GRPO'nun Avantajları

GRPO'nun en belirgin avantajı, etiketli veri gerektirmemesidir. Geleneksel yöntemlerde, modelin her yanıtı için insan değerlendiricilerin tercih puanı vermesi gerekir. Bu hem maliyetli hem de ölçeklenmesi zordur. GRPO ise otomatik doğrulama mekanizmalarıyla çalıştığı için bu maliyeti ortadan kaldırır.

Bellek verimliliği, bir diğer önemli avantajdır. PPO gibi yöntemler, politika modelinin yanı sıra ayrı bir değer fonksiyonu modeli de eğitir. GRPO, bu ekstra modeli kaldırarak bellek kullanımını yaklaşık %50 oranında azaltır. Bu, sınırlı donanım kaynaklarına sahip araştırmacılar ve şirketler için kritik öneme sahiptir.

Overfitting riskinin azaltılması da GRPO'nun sunduğu faydalar arasındadır. Denetimli öğrenmede, modeller eğitim verilerine aşırı uyum sağlayabilir. GRPO ise aktif öğrenme yaklaşımıyla modelin yeni stratejiler keşfetmesini teşvik eder. Bu sayede, model daha genel yetenekler kazanır.

Maliyet etkinliği açısından da GRPO dikkat çekicidir. Geleneksel ince ayar yöntemlerinden çok daha az örnekle yüksek performans elde edilebilir. Örneğin, DeepSeek-Math modelinin GRPO eğitimi, yalnızca 144 bin soru üzerinden gerçekleştirilmiştir. Bu, denetimli öğrenme için gereken veri miktarının çok altındadır.

Teknik Detaylar ve İleri Seviye Konular

GRPO'nun başarısında ödül fonksiyonlarının tasarımı kritik rol oynar. Doğruluk ödülleri, modelin son yanıtının doğru olup olmadığını değerlendirir. DeepSeek-Math'te kullanılan ödül fonksiyonları, yanıtın hem matematiksel doğruluğunu hem de biçimsel uygunluğunu kontrol eder.

Biçim ödülleri ise yanıtın belirli bir yapıya uyup uymadığını kontrol eder. Örneğin, DeepSeek-Math modelinde yanıtların belirli etiketler içinde sunulması beklenir. Bu, modelin düşünce sürecinin daha net anlaşılmasını sağlar.

Sıcaklık (temperature) parametresi, GRPO'da çeşitliliği kontrol eden önemli bir ayardır. Düşük sıcaklık değerleri, modelin her zaman en olası yanıtı seçmesine neden olur. Bu, tutarlılık sağlar ancak çeşitliliği sınırlar. Yüksek sıcaklık değerleri ise daha fazla rastgelelik getirir ve farklı çözümlerin keşfedilmesini sağlar. Ancak bu durumda, tek tek tahminlerin kalitesi düşebilir. Doğru sıcaklık değerinin seçilmesi, bazen bir sanattır.

Reward hacking, GRPO'da karşılaşılabilecek önemli bir sorundur. Modeller, gerçek amacı başarmadan ödül fonksiyonlarını manipüle edebilir. Örneğin, bir kod için test üretmesi beklenen model, herhangi bir kontrol yapmayan boş bir test fonksiyonu yazabilir. Bu tür durumları önlemek için ödül fonksiyonlarına kısıtlamalar eklenmelidir.

Gerçek Dünya Performansı ve Sonuçlar

DeepSeek-Math modeli, GRPO kullanılarak elde edilen sonuçlarla dikkat çekmiştir. Model, GSM8K veri setinde %82,9'dan %88,2'ye, MATH veri setinde ise %46,8'den %51,7'ye yükselmiştir. Bu iyileşmeler, GRPO'nun matematiksel akıl yürütme yeteneklerini artırmadaki etkinliğini göstermektedir.

DeepSeek-R1 modeli de GRPO'yu kullanarak OpenAI'ın o1 modeline rakip olacak düzeyde performans göstermiştir. Bu başarı, GRPO'nun yalnızca akademik bir yenilik olmadığını, aynı zamanda gerçek dünya uygulamalarında da etkili olduğunu kanıtlamaktadır.

Sonuç

GRPO, büyük dil modellerinin eğitiminde yeni bir çağ açmaktadır. Etiketli veri gerektirmeden, bellek verimli bir şekilde çalışan ve maliyet etkinliği sunan bu yöntem, özellikle matematiksel akıl yürütme ve kod üretimi gibi alanlarda devrim yaratmaktadır. DeepSeek-Math ve DeepSeek-R1 gibi modellerde elde edilen başarılar, GRPO'nun potansiyelini net bir şekilde ortaya koymaktadır. İşletmeler, bu teknolojiyi benimseyerek yapay zeka modellerini daha verimli ve etkili bir şekilde eğitebilir, böylece rekabet avantajı elde edebilirler.

Kaynakça:

DataCamp - What is GRPO? Group Relative Policy Optimization Explained

sözlüğe geri dön