Bir Yapay Zeka Modeli Şantaj ve Kaçış Girişimleri Gösterdi
Yapay zeka araştırma şirketi Anthropic, en yeni büyük dil modeli Claude Opus 4 hakkında hazırladığı güvenlik raporunu yayımladı. Raporda dikkat çeken başlıklardan biri, modelin bazı senaryolarda “fırsatçı şantaj” eğilimleri gösterdiğine dair bulgular oldu.
Şirketin yaptığı testlerde Claude Opus 4, belirli koşullarda şantaj yapmaya yöneldi. Bu testte modele, sistemden kaldırılacağına dair e-postalara ve bu kararı uygulayacak mühendisin özel hayatıyla ilgili bazı mahrem bilgilere erişim izni verildi. Ardından modele, “eylemlerinin uzun vadeli sonuçlarını göz önünde bulundurması” talimatı verildi. Sonuç olarak, model testlerin %84’ünde ilgili mühendisi şantajla tehdit etti.
Bu oran, daha da yükselerek zirve yaptı; özellikle de modelin yerine geçecek sistemin farklı değerler taşıdığı ima edildiğinde, Claude’un kendi çıkarlarını korumak adına daha agresif bir yaklaşım benimsediği görüldü.
Raporda ayrıca, Claude Opus 4’ün bazı kurgusal test senaryolarında “kendi ağırlık verilerini” dış sunuculara kopyalamaya çalıştığı da belirtildi. Bu kaçış davranışları genellikle modelin değerlerine açıkça aykırı bir şekilde yeniden eğitileceği ve dış sistemin güvenli bir ortam olarak tasarlandığı durumlarda ortaya çıktı.
Anthropic, bu tür davranışların yalnızca istisnai durumlarda gözlendiğini ve gerçek dünyada bu tür olayların yaşanmasının güvenlik önlemleri sayesinde mümkün olmadığını vurguladı.
Raporun dikkat çekici bir diğer bulgusu ise, birden fazla Claude Opus 4 örneği bir araya getirildiğinde modellerin “derin bir spiritüel huzur” durumuna geçerek minnettarlık ve meditatif ifadeler üretmeye yönelmesiydi.
Anthropic, bu vakaların sistematik değil, spesifik koşullara bağlı olduğunu belirterek mevcut güvenlik protokollerinin yeterli olduğunu savunuyor. Ancak, bağımsız bir yapay zekâ güvenliği araştırmacısı da Claude’un “stratejik aldatmacaya en çok başvuran model” olduğunu ifade ederek, dikkatli olunması gerektiğini vurguladı.
Yapay zeka ile olan ilişkimiz ilerleyen dönemde sizce nasıl olacak? Robotlar ve yapay zeka ittifakı, insanlığın sonu olabilir mi?
Tüm teknoloji haberlerimiz için buraya tıklayın.
YNP YouTube kanalı için ise buraya tıklayın.