Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Google’a bir ceza daha: Bu sefer 36 milyon dolar…

Google, Avustralya’daki büyük telekom operatörleriyle yaptığı arama motoru anlaşmaları nedeniyle 55 milyon Avustralya doları tutarında ceza ödemeyi kabul etti. Karar, mahkemenin onayına sunulacak.

BYD bunu da yaptı… Girişi 3400 lira oldu… Su, kum, hız hepsi serbest

BYD, otomobil kültürünü halka ulaştırmak amacıyla yeni bir yarış pisti açıyor.

Uzayda yeni bir cisim keşfedildi: “Bilinen hiçbir şeye benzemiyor”

Şili’deki bilim insanları yoğun enerji yayan ve son derece parlak bir kozmik cisim keşfetti.

Tesla’ya kötü haber… Satışlar yine düştü

Tesla Model Y’nin Çin’deki satışları Temmuz ayında yeniden düşüşe geçti.

iPhone’a zam bahanesiyle güncelleme geliyor: Geçiş zorunlu olacak

Apple, iPhone 17 serisiyle birlikte teknoloji dünyasında yeni bir tartışmanın fitilini ateşlemeye hazırlanıyor.
Son günlerde art arda gelen sızıntılar ve analizler, fiyatların önceki nesle kıyasla ciddi şekilde yükseleceğini gösteriyor. Ancak işin asıl çarpıcı yanı, bu zamla birlikte Apple’ın kullanıcıları daha yüksek depolama alanına sahip, dolayısıyla daha pahalı modellere yönlendirecek olması.

Nokia ile HMD Global yollarını ayırıyor: Lisans anlaşması iptal

Bir dönemin sembolü, dayanıklılık ve güvenilirlikle özdeşleşen Nokia markasının akıllı telefon pazarındaki serüveni, bir son gibi görünse de teknoloji dünyasında yeni bir dönemin başlangıcı olarak nitelendiriliyor. HMD Global ile arasındaki lisans …