Karmaşık Görevlerde Yapay Zeka Neden Hata Veriyor?
Apple tarafından 7 Haziran 2025’te yayımlanan yeni bir araştırma, OpenAI ve DeepSeek gibi şirketlerin geliştirdiği son teknoloji yapay zeka modellerinin karmaşık görevlerde mantıksal çöküş yaşadığını ortaya koydu.
Özellikle OpenAI’nin o3, DeepSeek’in R1 ve Anthropic’in Claude gibi modelleri, belirli bir karmaşıklık seviyesinin ötesine geçildiğinde ciddi doğruluk kayıpları gösteriyor. Apple, bu durumu “tam doğruluk çöküşü” olarak tanımlıyor.
Düşünce Zinciri Yeterli Değil
Bu modeller, “düşünce zinciri” adı verilen yöntemle çok adımlı mantık yürütmeler gerçekleştirmeye çalışıyor. Ancak Apple’ın çalışması, bu zincirin karmaşık görevlerde kopma eğiliminde olduğunu gösteriyor.
Örneğin, Hanoi Kulesi gibi klasik bulmacalarda modeller ilk 100 adımı doğru ilerletebiliyor ancak daha basit olan Nehir Geçişi bulmacasında sadece birkaç doğru adım atabiliyor. Bu da yapay zekanın problem çözme becerisinin, sadece model gücüne değil, problem yapısına da bağlı olduğunu ortaya koyuyor.
Akıl Yürütme Modelleri Neden Çöküyor?
Apple’ın araştırması, modellerin karmaşıklık arttıkça daha fazla “token” (veri birimi) kullanmaları gerekirken, aksine bu harcamayı azalttıklarını ortaya çıkardı. Bu durum, modellerin içsel bir ölçekleme sınırına takıldığını gösteriyor.
OpenAI’nin raporlarına göre, modeller geliştikçe “halüsinasyon” eğilimi de artıyor. o3 modeli %33, o4-mini %48 oranında yanlış bilgi üretirken, önceki nesil o1 modeli bu oranda yalnızca %16 sapma gösteriyordu.
Deneysel Tasarım ve Bulgular
Araştırma kapsamında modeller, dört klasik bulmaca türünde test edildi:
- Nehir Geçişi
- Dama Tahtası Atlaması
- Blok İstifleme
- Hanoi Kulesi
Her bulmacanın karmaşıklığı düşük, orta ve yüksek olmak üzere derecelendirildi. Karmaşıklık düşükken genel modeller daha iyi performans gösterdi. Ancak karmaşıklık arttıkça akıl yürütme modelleri öne geçse de bu üstünlük kısa sürdü ve her iki model türü de yüksek karmaşıklıkta çöktü.
Apple Ne Amaçlıyor?
Apple, cihaz içi verimlilik odaklı yapay zeka geliştirme stratejisini sürdürürken, bu raporla rakiplerinin AGI (Yapay Genel Zeka) iddialarına doğrudan eleştiri yöneltiyor. Bazı uzmanlar, Apple’ın bu yaklaşımını “ekşi üzüm sendromu” olarak yorumlarken, diğerleri çalışmayı “gerçekçi bilimsel bir uyarı” olarak değerlendiriyor.
Gartner’dan yapay zeka uzmanı Andriy Burkov, konuyu şu sözlerle özetliyor:
“LLM’ler sinir ağıdır ve bu nedenle tüm sınırlamalarla birlikte gelir. Apple, bunu ispat etti.”
Daha fazla bu kategoriden içerik için Yapay Zeka ve Robotik kategorimizi ziyaret edin.
