Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Kediler sahiplerinin kokusunu ayırt edebiliyor mu?

Kediler sahiplerinin kokusunu ayırt edebiliyor mu?

Tıpkı bir krep gibi gözüküyor: Venüs’ün Krep Volkanları’nın sırrı ne?

Gezegenin kavurucu yüzeyinde, ikonik bir hale gelen ve görünümleri sebebiyle zaman zaman doğal olmadığı düşünülen Krep Volkanları’nın sebebi ne?

Kaspersky tedarik zinciri saldırılarındaki yükselişe dikkati çekti

Şirketten yapılan açıklamaya göre, Kaspersky, Tayland’ın Phuket Adası’nda bu yıl onuncusunu düzenlediği Cyber Security Weekend (Siber Güvenlik Haftasonu)-META 2025 Konferansı’nda, açık kaynaklı projelerde tespit edilen zararlı paketlere ilişkin bilgi …

PlayStation Plus’a haziranda gelecek oyunlar açıklandı

Sony’nin PlayStation Plus hizmetine haziran ayında binlerce TL’lik oyun geliyor.

Death Stranding 2’de Avustralya sürprizi

Kojima Productions tarafından geliştirilen Death Stranding 2: On the Beach, yayınlanan yeni ön izleme içerikleriyle oyunculara oyunun dünyasına dair daha fazla fikir verdi. Bu içeriklere göre oyun, Meksika’da başlasa da zamanla oyuncuları büyük …

D Tech Cloud’dan geleceğe açılan teknoloji atölyesi

Türkiye’nin yenilikçi bulut teknoloji sağlayıcısı D Tech Cloud ve Ankara Üniversitesi iş birliğiyle gerçekleştirilen workshop kapsamında low-code geliştirme ve yapay zeka destekli bulut teknolojileri ele alındı.