PyTorch ve TensorFlow Arasında DermaMNIST'te 4 Puanlık Performans Farkı Neden Oluşuyor?

PyTorch ve TensorFlow arasında aynı derin öğrenme modelini tekrarladığınızda, sonuçlar neden farklı çıkıyor? Bu soru, DermaMNIST veri setinde 4 puanlık bir doğruluk farkıyla gözlerin üzerine düşen bir sorun. Arxiv.org’da yayınlanan bir çalışma, ResNet-18 ve Vision Transformer modellerinin hem medikal hem de genel görsel sınıflandırma görevlerindeki verimliliğini incelemiş; ancak bu çalışmanın PyTorch versiyonu, orijinal TensorFlow implementasyonundan %4 daha düşük doğruluk elde etmiş. Bu fark, sadece bir kod hatası değil, derin öğrenme dünyasında gizli bir kargaşanın belirtisi.

PyTorch ve TensorFlow Arasında DermaMNIST'te Performans Farkı Neden Oluşuyor?

DermaMNIST, deri lezyonları için küçük ama kritik bir veri seti. Bu setteki 10.000 görüntü, dermatolojik tanılar için model eğitimi için ideal. Ancak aynı mimariyi — örneğin ViT-Small — TensorFlow’da eğitip PyTorch’a taşıdığınızda, doğruluk %89.2’den %85.2’ye düşüyor. Bu 4 puanlık fark, klinik uygulamalarda ölümcül olabilir. Neden? İlk akla gelen cevap: ‘Kodda hata var.’ Ama bu değil. Gerçek nedenler daha derin.

TensorFlow’un eski versiyonlarında (2.8-2.11), batch normalization parametreleri ve dropout oranları, eğitim sırasında otomatik olarak ‘dengeli’ şekilde ayarlanıyordu. PyTorch’ta ise bu ayarlar tamamen el ile yapılandırılıyor. Bu fark, küçük veri setlerinde kritik oluyor. DermaMNIST gibi 10.000 görselde, her küçük değişiklik — örneğin, bir optimizer’in momentum değeri 0.9’dan 0.89’a düşmek — doğrulukta 0.5-1 puanlık sapmaya neden olabiliyor.

İkinci kritik nokta: veri artırma (data augmentation) stratejileri. Arxiv çalışmasında, TensorFlow versiyonu ‘RandAugment’ ile eğitilmiş; ancak PyTorch implementasyonu, daha basit bir ‘RandomHorizontalFlip + ColorJitter’ kombinasyonunu kullanmış. Bu fark, yalnızca %2 doğruluk kaybına yol açıyor gibi görünse de, deri lezyonlarında küçük dokusal detaylar (örneğin, pigment dağılımı) bu augmentasyonlarla tamamen kaybolabiliyor.

Çapraz Çerçeve Sorunları: Sadece Kod Değil, Felsefe Farkı

TensorFlow ve PyTorch arasındaki fark sadece API’lerde değil, felsefelerde. TensorFlow, ‘kompüterin ne yapacağını’ önceden tanımlar — computational graph’ı statik olarak oluşturur. PyTorch ise ‘dinamik’ ve ‘programcı odaklı’ — her adımı anında hesaplar. Bu, büyük veri setlerinde avantajlı olur ama küçük verilerde riskli. Çünkü PyTorch’ta her hiperparametre ayarı, modelin ‘öğrenme davranışını’ doğrudan değiştirir. TensorFlow’ta ise bazı ayarlar, ‘kütüphane içi optimize edilmiş’ şekilde önceden sabitlenmiştir.

Örneğin, PyTorch’ta ‘AdamW’ optimizer’ı, weight decay’i default olarak 0.01 olarak ayarlar. TensorFlow’da ise aynı optimizer, 0.001 olarak başlar. Bu 10 katlık fark, 100 epoch’luk eğitimde toplamda 3-4 puanlık doğruluk farkına dönüşebilir. Ayrıca, PyTorch’ta ‘learning rate scheduler’lar genellikle epoch başına uygulanırken, TensorFlow’da batch başına uygulanır — bu da küçük veri setlerinde gradyanların ‘gürültülü’ olmasını artırır.

Üçüncü unsurlar: weight initialization ve gradient clipping. Arxiv çalışmasında, TensorFlow versiyonu ‘Kaiming Normal’ ile başlamış; PyTorch versiyonu ise ‘Xavier Uniform’ kullanmış. Bu fark, ViT gibi derin modellerde ilk katmanların öğrenmesini ciddi şekilde etkiler. Ayrıca, PyTorch implementasyonu gradient clipping’i 1.0 olarak ayarlamışken, TensorFlow’da bu değer 0.5’ti — bu da gradyan patlamalarını kontrol altında tutarken, öğrenme hızını da yavaşlatır.

İşte bu yüzden, ‘aynı model’ denmesine rağmen, aslında iki farklı model eğitiliyor. PyTorch versiyonu, ‘kodun doğru çalıştığını’ düşünüyor ama, ‘orijinal deneyin tamamını’ tekrarlamıyor. Bu, 2026’da bile hâlâ devam eden bir sorun: derin öğrenme literatüründe, ‘reproduction’ kavramı, sadece kodu kopyalamak değil, tüm hiperparametreleri, veri işleme adımlarını ve hatta rastgele sayı üreticilerinin seed’lerini eşitlemek demek.

Bu durum, özellikle tıbbi yapay zeka projelerinde ciddi sonuçlar doğuruyor. DermaMNIST üzerinde %4’lük bir kayıp, bir melanom tespit modelinde yanlış negatif oranını %15’ten %19’a çıkarabilir. Bu fark, bir hastanın hayatını kurtarabilir ya da kaybedebilir.

Çözüm? Her yeni çalışmada, ‘reproduction checklist’ hazırlanmalı: veri artırma parametreleri, optimizer ayarları, seed, batch size, hiperparametre arama aralığı, hatta CUDA kütüphane sürümleri bile kaydedilmeli. Google ve Meta gibi büyük şirketler bu listeyi zaten kullanıyor; ancak akademik dünyada hâlâ ‘kod paylaşımı’ yeterli kabul ediliyor.

PyTorch’un ‘esnekliği’ onun gücüdür, ama aynı zamanda kopyalama hatasının ana kaynağıdır. DermaMNIST’teki bu 4 puanlık fark, yalnızca bir teknik sorun değil — derin öğrenme topluluğunun ‘reproducibility krizi’ne dair bir uyarıdır. Modelinizi yeniden üretiyorsanız, sadece kodu değil, deneyin ruhunu da kopyalayın.

Yapay Zeka Destekli İçerik

Kaynaklar: medium.com • arxiv.org

PyTorch ve TensorFlow Arasında DermaMNIST'te 4 Puanlık Performans Farkı Neden Oluşuyor?