StepFun AI, Düşük Maliyetli Derin Araştırma Ajanı Step-DeepResearch'ı Duyurdu
StepFun AI, Düşük Maliyetli Derin Araştırma Ajanı Step-DeepResearch'ı Duyurdu
Yapay Zeka Araştırmayı Yeniden Tanımlıyor
StepFun AI tarafından tanıtılan Step-DeepResearch, uzun vadeli akıl yürütme, araç kullanımı ve yapılandırılmış raporlama yetenekleri ile web aramasını gerçek araştırma iş akışlarına dönüştürmeyi amaçlayan 32 milyar parametreli bir uçtan uca derin araştırma ajanı olarak öne çıkıyor. Model, Qwen2.5 32B-Base üzerine inşa edildi ve düşük çıkarım maliyetini korurken, planlama yapan, kaynakları araştıran, kanıtları doğrulayan ve atıflı raporlar yazan tek bir ajan olarak hareket etmek üzere eğitildi.
Atomik Yetenekler ve Yenilikçi Mimari
Step-DeepResearch, araştırma sürecini kompakt bir dizi 'atomik yetenek' üzerinden sıralı karar verme olarak yeniden çerçeveliyor. Bu yetenekler; planlama ve görev ayrıştırma, derin bilgi arama, yansıtma ve doğrulama ile profesyonel rapor oluşturma olarak tanımlanıyor. Birçok harici ajanı koordine etmek yerine sistem, bu döngüyü her adımda bir sonraki eyleme karar veren tek bir modele dahil ediyor. Bu yaklaşım, AI ajanlarının giderek karmaşık görevleri yönetme yönündeki evrimine paralel bir gelişme olarak görülüyor.
Hedefli Veri Sentezi ve Üç Aşamalı Eğitim
Modeli bu atomik yeteneklerle eğitmek için her bir beceriye yönelik ayrı veri işleme hatları oluşturuldu. Eğitim süreci üç aşamadan oluşuyor: araçsız atomik yeteneklerin aşılandığı ara eğitim, açık araç çağrılarının tanıtıldığı ve bağlam uzunluğunun 128 bin tokona çıkarıldığı ikinci aşama ve nihayetinde derin araştırma izlerinin birleştirildiği gözetimli ince ayar. Son aşamada, gerçek bir araç ortamında PPO tabanlı pekiştirmeli öğrenme ile ajan, raporlarını ince detaylı kontrol listelerine göre optimize eden bir 'Rubrics Judge' (Kriter Hakemi) ile eğitildi.
REKLAM
Gerçek Zamanlı Araç Kullanımı ve Kapsamlı Değerlendirme
Çıkarım zamanında model, düşünen, araç çağıran ve gözlemleyen tek bir ReAct tarzı ajan olarak çalışıyor. Toplu web araması, yapılacaklar listesi yöneticisi, kabuk komutları ve dosya işlemlerini içeren bir araç setini kullanıyor. Bilgi edinimi için 20 milyondan fazla yüksek kaliteli akademik makale ve 600 premium indekse dayanan özel bir Arama API'si ve 600'den fazla güvenilir alan adını izole eden küratörlü bir otorite indeksleme stratejisi kullanılıyor. Bu durum, eski sistemlerle AI'nın gücünden yararlanmanın zorluklarına kıyasla, modern araştırma altyapısının önemini vurguluyor.
Rekabetçi Performans ve Erken Erişim
Modelin performansı, 110 açık uçlu görevden oluşan ADR-Bench adlı bir Çince kıyaslama ile ölçüldü. Uzman değerlendirmelerine dayanan Elo derecelendirmelerinde, 32B modelinin daha büyük açık modelleri geride bıraktığı ve Kimi-Researcher gibi sistemlerle rekabetçi olduğu belirtiliyor. Scale AI 'Araştırma Kriterleri'nde ise %61.42 kriter uyumluluğuna ulaşarak OpenAI ve Gemini'nin derin araştırma sistemleriyle karşılaştırılabilir bir performans sergiliyor. Model şu anda erken erişim için mevcut.
Step-DeepResearch'ın piyasaya sürülmesi, bulut ve AI altyapısındaki rekabetin bir parçası olarak görülebilir. Ayrıca, küresel forumların teknoloji odaklı gündemlerinde bu tür derin araştırma araçlarının rolünün artabileceğine işaret ediyor.