Yapay zekâ güvenliği,yapay zekâ sistemlerinden kaynaklanabilecek kazaları, kötüye kullanımı veya diğer zararlı sonuçları önlemekle ilgilenen disiplinler arası bir alandır. Yapay zekâ sistemlerini ahlaki ve faydalı hale getirmeyi amaçlayan makine etiği ile yapay zekâ uyumunu kapsar ve yapay zekâ güvenliği, riskler için sistemleri izlemek ve onları son derece güvenilir hale getirmek gibi teknik sorunları kapsar. Yapay zekâ araştırmalarının ötesinde, güvenliği teşvik eden normlar ve politikalar geliştirmeyi içerir.
Motivasyonlar
Yapay zekâ araştırmacıları, yapay zekâ teknolojisinin oluşturduğu riskin ciddiyeti ve birincil kaynakları hakkında farklı görüşlere sahiptir.[1][2][3] Yine de anketler, uzmanların yüksek sonuçlu riskleri ciddiye aldığını göstermektedir. Yapay zekâ araştırmacılarıyla yapılan iki ankette, katılımcıların ortalamasının genel olarak yapay zekâ konusunda iyimser olduğu, ancak gelişmiş yapay zekânın "son derece kötü (örneğin insan neslinin tükenmesi)" bir sonuca yol açma olasılığının %5 olduğu görülmüştür.[1] 2022 yılında Doğal dil işleme (NLP) topluluğunda yapılan bir ankete katılanların %37'si, yapay zekâ kararlarının "en az topyekün bir nükleer savaş kadar kötü" bir felakete yol açabileceğinin makul olduğunu kabul etmiş veya zayıf bir şekilde kabul etmiştir.[4] Akademisyenler kritik sistem arızalarından,[5] önyargıdan,[6] ve yapay zekâ destekli gözetimden kaynaklanan mevcut riskleri tartışmaktadır;[7] teknolojik işsizlik, dijital manipülasyon [8] ve silahlanmadan kaynaklanan riskler;[9] ve gelecekteki yapay genel zekânın kontrolünü kaybetmekten kaynaklanan spekülatif riskleri göze almaktadırlar.[10]
Bazıları, 2015'te bunları "henüz gezegene ayak basmadığımız halde Mars'ta aşırı nüfus konusunda endişelenmek" ile karşılaştıran Andrew Ng gibi yapay genel zekâ ile ilgili endişeleri eleştirmiştir.[11] Öte yandan Stuart J. Russell, Diğer taraftan Stuart J. Russell, "insan yaratıcılığını tahmin edebilmenin onu hafife almaktan daha iyi olduğunu" savunarak dikkatli olunması çağrısında bulunuyor.[12]
Arka plan
Yapay zekâdan kaynaklanan riskler bilişim çağının başlangıcında ciddi olarak tartışılmaya başlandı:
Dahası, öğrenen ve davranışları deneyimle değiştirilen makineler yapma yönünde ilerlersek, makineye verdiğimiz her bağımsızlık derecesinin, isteklerimize olası bir meydan okuma derecesi olduğu gerçeğiyle yüzleşmeliyiz.
2008-2009 yılları arasında Yapay Zekâ Geliştirme Derneği, yapay zekâ araştırma ve geliştirmesinin potansiyel uzun vadeli toplumsal etkilerini araştırmak ve ele almak üzere bir çalışma yaptırmıştır. Panel, bilimkurgu yazarları tarafından ifade edilen radikal görüşlere genel olarak şüpheyle yaklaşmış, ancak "beklenmedik sonuçları en aza indirmek için karmaşık hesaplama sistemlerinin davranış yelpazesini anlama ve doğrulama yöntemleri konusunda ek araştırmaların değerli olacağı" konusunda hemfikir olunmuştur.[14]
Roman Yampolskiy 2011 yılında Yapay Zekâ Felsefesi ve Teorisi konferansında[15] " Yapay zekâ güvenlik mühendisliği" terimini[16] ortaya atmış, yapay zekâ sistemlerinin önceki başarısızlıklarını sıralamış ve "yapay zekâlar daha yetenekli hale geldikçe bu tür olayların sıklığı ve ciddiyetinin giderek artacağını" savunmuştur.[17]
Filozof Nick Bostrom 2014 senesinde "Süper Zekâ:Yollar, Tehlikeler, Stratejiler" adlı kitabını yayınladı. Bostrom, yapay zekânın yükselişinin, işgücünün yapay zekâ tarafından yerinden edilmesinden, siyasi ve askeri yapıların manipüle edilmesine ve hatta insan neslinin tükenme olasılığına kadar çeşitli toplumsal sorunlar yaratma potansiyeline sahip olduğu görüşündedir.[18] Gelecekteki gelişmiş sistemlerin insan varlığına tehdit oluşturabileceği yönündeki argümanı Elon Musk, Bill Gates[19] ve Stephen Hawking'in[20] de benzer endişeleri dile getirmesine neden olmuştur.
2015 yılında onlarca yapay zekâ uzmanı, yapay zekânın toplumsal etkileri üzerine araştırma yapılması çağrısında bulunan ve somut yönergeler belirleyen bir açık mektuba imza atmıştır.[21] Mektup bugüne kadar Yann LeCun, Shane Legg, Yoshua Bengio ve Stuart Russell'ın da aralarında bulunduğu 8000'den fazla kişi tarafından imzalandı.
Aynı yıl, profesör Stuart Russell liderliğindeki bir grup akademisyen California Berkeley Üniversitesinde İnsan Uyumlu Yapay Zekâ Merkezi'ni kurdu ve Yaşamın Geleceği Enstitüsü "yapay zekânın güvenli, etik ve faydalı kalmasını sağlamayı" amaçlayan araştırmalar için 6,5 milyon dolar hibe desteği sağladı.[22]
2016 yılında Beyaz Saray Bilim ve Teknoloji Politikası Ofisi ve Carnegie Mellon Üniversitesi, yapay zekânın "avantajlarını ve dezavantajlarını" araştırmayı amaçlayan dört Beyaz Saray çalıştayından biri olan Yapay Zekâ için Güvenlik ve Kontrol Kamu Çalıştayı'nı duyurdu.[23][24] Aynı yıl, ilk ve en etkili teknik Yapay Zekâ Güvenliği gündemlerinden biri olan "Concrete Problems in AI Safety" yayınlandı.[25]
2017 yılında Yaşamın Geleceği Enstitüsü, 100'den fazla düşünce liderinin aşağıdakiler de dahil olmak üzere faydalı yapay zekâ için ilkeleri formüle ettiği Asilomar Faydalı Yapay Zekâ Konferansı'na sponsor oldu. "Yarıştan Kaçınma: Yapay zekâ sistemleri geliştiren ekipler, güvenlik standartlarında köşe dönmekten kaçınmak için aktif olarak işbirliği yapmalıdır." [26]
2018 yılında DeepMind Safety ekibi, teknik özellik, sağlamlık ve güvence konularında yapay zekâ güvenlik sorunlarının ana hatlarını ortaya koydu.[27] Ertesi yıl, araştırmacılar ICLR'de bu sorun alanlarına odaklanan bir çalıştay düzenlediler.[28]
2021 yılında, sağlamlık, izleme, hizalama ve sistemik güvenlik alanlarındaki araştırma yönlerini özetleyen "Unsolved Problems in Machine Learning Safety" yayınlandı.[29]
Rishi Sunak, 2023 yılında Birleşik Krallık'ın "küresel yapay zekâ güvenlik düzenlemesinin merkezi" olmasını ve yapay zekâ güvenliği konusundaki ilk küresel zirveye ev sahipliği yapmasını istediğini söyledi.[30]
Araştırma odağı
Yapay zekâ güvenlik araştırma alanları arasında sağlamlık, izleme ve hizalama yer almaktadır.[27][29]
Sağlamlık
Saldırıya karşı sağlamlık
Yapay zekâ sistemleri genellikle rakip örneklere veya "bir saldırganın kasten modelin hata yapmasına neden olacak şekilde tasarladığı makine öğrenimi (ML) modellerindeki girdilere" karşı savunmasız durumdadır.[31] Örneğin, 2013 yılında Szegedy ve arkadaşları, bir görüntüye belirli algılanamaz bozulmalar eklemenin, görüntünün yüksek güvenle yanlış sınıflandırılmasına neden olabileceğini ortaya çıkarmıştır.[32] Bu durum sinir ağları ile ilgili bir sorun olmaya devam etmektedir, ancak son çalışmalarda bozulmalar genellikle algılanabilecek kadar büyük olmaktadır.[33][34][35]
Sağdaki tüm görüntülerin bozulma uygulandıktan sonra devekuşu olduğu tahmin edilmektedir. Solda yapay zekâ köpeği doğru tahin ediyor ama tititzlikle eklenen gürültü yüzünden yapay zekâ köpeği bir devekuşu olarak sınıflandırıyor. Bu da bize dikkatli bir şekilde oluşturulmuş gürültülerin yapay zekâyı yanlış sınıflandırmaya itebileceğini göstermektedir.[32]
Saldırıya karşı sağlamlık genellikle güvenlikle ilişkilendirilir.[36] Araştırmacılar, bir ses sinyalinin fark edilmeyecek şekilde değiştirilebileceğini ve böylece konuşmadan metne sistemlerinin bunu saldırganın seçtiği herhangi bir mesaja dönüştürebileceğini göstermiştir.[37] Ağa izinsiz giriş [38] ve kötü amaçlı yazılım [39] tespit sistemleri de saldırganlara karşı dayanıklı olmalıdır çünkü saldırganlar saldırılarını bu tespit edicileri kandırmak için tasarlayabilir.
Hedefleri temsil eden modeller (ödül modelleri) de tersine dayanıklı olmalıdır. Örneğin, bir ödül modeli bir metin yanıtının ne kadar yararlı olduğunu tahmin edebilir ve bir dil modeli bu puanı en üst düzeye çıkarmak için eğitilebilir.[40] Araştırmacılar, bir dil modelinin yeterince uzun süre eğitilmesi durumunda, daha iyi bir puan elde etmek ve amaçlanan görevde daha kötü performans göstermek için ödül modelinin zayıflıklarından yararlanacağını göstermiştir.[41] Bu sorun, ödül modelinin düşmana karşı sağlamlığı geliştirilerek ele alınabilir.[42] Daha genel olarak, başka bir yapay zekâ sistemini değerlendirmek için kullanılan herhangi bir yapay zekâ sistemi agresif olarak güvenilir olmalıdır. Bu, izleme araçlarını da içerebilir, çünkü daha yüksek bir ödül üretmek için potansiyel olarak manipüle edilebilirler.[43]
İzleme
Belirsizliğin tahmin edilmesi
İnsan operatörlerin, özellikle tıbbi teşhis gibi yüksek riskli ortamlarda, bir yapay zekâ sistemine ne kadar güvenmeleri gerektiğini ölçmeleri genellikle çok önemlidir.[44] Makine öğrenimi modelleri genellikle olasılık çıktısı vererek güven ifade eder;[45] bununla birlikte, özellikle ele almak üzere eğitildiklerinden farklı durumlarda genellikle aşırı güven duyarlar.[46] Kalibrasyon araştırmaları, model olasılıklarının modelin doğru olma oranına mümkün olduğunca yakın olmasını amaçlamaktadır.
Benzer şekilde, anomali tespiti veya dağılım dışı tespiti, bir yapay zekâ sisteminin olağandışı bir durumda olduğunu tespit etmeyi amaçlamaktadır. Örneğin, otonom bir araçtaki bir sensör arızalıysa veya zorlu bir araziyle karşılaşırsa, sürücüyü kontrolü ele alması veya kenara çekmesi için uyarması gerekmektedir.[47] Anomali tespiti, basitçe anormal ve anormal olmayan girdileri ayırt etmek için bir sınıflandırıcıyı eğiterek uygulanmaktadır,[48] ancak bir dizi ek yöntem de kullanılmaktadır.[49][50]
Kötü niyetli kullanımın tespiti
Akademisyenler [9] ve devlet kurumları, yapay zekâ sistemlerinin kötü niyetli aktörlerin silah üretmesine,[51] kamuoyunu manipüle etmesine,[52][53] veya siber saldırıları otomatikleştirmesine yardımcı olmak için kullanılabileceği yönündeki endişelerini dile getirmiştir.[54] Bu endişeler, güçlü yapay zekâ araçlarını çevrimiçi olarak barındıran OpenAI gibi şirketler için mevcut bir endişe sebebidir.[55] Kötüye kullanımı önlemek için OpenAI, kullanıcıları etkinliklerine göre işaretleyen veya kısıtlayan algılama sistemleri geliştirmiştir.[56]
Şeffaflık
Sinir ağları sıklıkla kara kutular olarak tanımlanır;[57] yani gerçekleştirdikleri çok sayıda hesaplama sonucunda aldıkları kararları neden aldıklarını anlamak oldukça zordur.[58] Bu da arızaları önceden tahmin etmeyi zorlaştırmaktadır. 2018 yılında sürücüsüz bir araç, bir yayayı tespit edemeyerek ölümüne neden oldu. Yapay zekâ yazılımının kara kutu niteliği nedeniyle, arızanın nedeni belirsizliğini korumaktadır.[59]
Şeffaflığın kritik faydalarından biri açıklanabilirliktir.[60] Bazen, örneğin iş başvurularını otomatik olarak filtrelemek veya kredi notu atamak gibi, adaleti sağlamak için bir kararın neden verildiğine dair bir açıklama yapmak yasal bir zorunluluktur.[60]
Bir diğer faydası ise arızaların nedeninin ortaya çıkarılmasıdır.[57] Araştırmacılar, 2020 COVID-19 pandemisinin başlangıcında, tıbbi görüntü sınıflandırıcılarının alakasız hastane etiketlerine 'dikkat ettiğini' göstermek için şeffaflık araçlarını kullandılar.[61]
Şeffaflık yöntemleri hataları düzeltmek için de kullanılabilir. Örneğin, "Locating and Editing Factual Associations in GPT" başlıklı makalede yazarlar, Eyfel kulesinin konumuyla ilgili soruları nasıl cevapladığını belirleyen model parametrelerini tespit edebilmişlerdir. Daha sonra bu bilgiyi düzenleyerek modelin sorulara kulenin Fransa yerine Roma'da olduğuna inanıyormuş gibi yanıt vermesini sağlamışlardır.[62] Bu durumda yazarlar bir hataya neden olmuş olsalar da, bu yöntemler potansiyel olarak hataları etkili bir şekilde düzeltmek için kullanılabilir. Model düzenleme teknikleri bilgisayarla görüntülemede de mevcuttur.[63]
Son olarak, bazı kişiler yapay zekâ sistemlerinin şeffaf olmamasının önemli bir risk unsuru olduğunu ve bu sistemlerin nasıl çalıştığının daha iyi anlaşılmasının gelecekte büyük çaplı arızaları önleyebileceğini ileri sürmüştür.[64]"İçsel" yorumlanabilirlik araştırması makine öğrenimi modellerini şeffaf olmaktan çıkarmayı amaçlamaktadır. Bu araştırmanın bir amacı, iç nöron aktivasyonlarının neyi temsil ettiğini tespit etmektir.[65][66] Örneğin, araştırmacılar CLIP yapay zekâ sisteminde örümcek adam kostümlü insanların görüntülerine, örümcek adam çizimlerine ve 'örümcek' kelimesine tepki veren bir nöron tanımladılar. Ayrıca bu nöronlar veya 'devreler' arasındaki bağlantıların da izah edilmesini içermektedir.[67][68] Örneğin, araştırmacılar dil modellerinin bağlamlarından nasıl öğrendiklerinde rol oynayabilecek transformatör dikkatindeki örüntü eşleştirme mekanizmalarını tanımlamışlardır.[69] "İçsel yorumlanabilirlik" sinirbilim ile mukayese edilmektedir. Her iki durumda da amaç karmaşık bir sistemde neler olup bittiğini anlamaktır, bununla birlikte makine öğrenimi araştırmacıları mükemmel ölçümler alabilme ve keyfi çıkarımlar yapabilme avantajına sahiptir.[70]
Trojanları tespit etmek
Makine öğrenimi modelleri potansiyel olarak 'trojan' veya 'arka kapı' içerebilmektedir: bunlar kötü niyetli aktörlerin bir yapay zekâ sisteminde oluşturdukları güvenlik açıklarıdır. Örneğin, trojanlı bir yüz tanıma sistemi, belirli bir mücevher parçası göründüğünde erişim izni verebilir;[29] veya trojanlı bir otonom araç, belirli bir hareket tetikleyicisi görünene kadar normal çalışabilir.[71] Bir saldırganın bir trojan yerleştirebilmesi için sistemin eğitim verilerine erişimi olması gerektiğini unutulmamalıdır. CLIP veya GPT-3 gibi bazı büyük modellerde halka açık internet verileriyle eğitildiklerinden bunu yapmak daha zor olmayabilir.[72] Araştırmacılar, 3 milyon eğitim görüntüsünden sadece 300'ünü değiştirerek bir görüntü sınıflandırıcıya trojan yerleştirmeyi başardılar.[73] Araştırmacılar, güvenlik riski oluşturmanın yanı sıra, trojanların daha iyi izleme araçlarının test edilmesi ve geliştirilmesi için somut bir ortam sağladığını ileri sürmektedir.[43]
Sistemik güvenlik ve sosyoteknik faktörler
Yapay zekâ sonsuz istikrarlı diktatörlükler yaratma potansiyeline sahiptir.
Yapay zekâ risklerinin (ve daha genel olarak teknolojik risklerin) yanlış kullanım veya kazalar şeklinde sınıflandırılması yaygındır.[75] Bazı akademisyenler bu bakış açısının yetersiz kaldığını öne sürmüşlerdir.[75] Örneğin, Küba Füze Krizi açıkça bir hata ya da yanlış teknoloji kullanımı sonucu ortaya çıkmamıştır.[75] Politika analistleri Zwetsloot ve Dafoe şöyle yazmıştır: "Kötüye kullanım ve kaza bakış açıları, bir hasara yol açan nedensellik zincirinde yalnızca son adıma odaklanma eğilimi gösterir: Yani, teknolojiyi kötüye kullanan kişiye veya istenmeyen şekilde hareket eden bir sisteme... Ancak çoğu zaman, ilgili nedensellik zinciri çok daha uzun olmaktadır." Riskler genellikle rekabet baskısı, zararların yayılması, hızlı gelişim, yüksek düzeyde belirsizlik ve yetersiz güvenlik kültürü gibi 'yapısal' veya 'sistematik' etkenlerden kaynaklanmaktadır.[75] Güvenlik mühendisliğinin daha geniş bağlamında, 'kurumsal güvenlik kültürü' gibi yapısal faktörler popüler STAMP risk analizi çerçevesinde merkezi bir öneme sahiptir.[76]
Yapısal bakış açısından esinlenen bazı araştırmacılar, sosyoteknik güvenlik faktörlerini iyileştirmek için makine öğrenimini kullanmanın önemini vurgulamaktadır; örneğin, siber savunma için makine öğrenimini kullanmak, kurumsal karar verme sürecini iyileştirmek ve işbirliğini kolaylaştırmak mümkündür.[29]
Siber savunma
Bazı akademisyenler, yapay zekânın siber saldırganlar ve siber savunmacılar arasında zaten dengesiz olan oyunu daha da kötüleştireceğinden endişe duymaktadır.[77] Bu durum 'ilk saldırı' güdülerini arttıracak olup daha agresif ve istikrarı bozucu saldırılara yol açabilecektir. Bu riski azaltmak için bazıları siber savunma konusuna daha fazla önem verilmesini önermektedir. Buna ek olarak, güçlü yapay zekâ modellerinin çalınıp kötüye kullanılmasını önlemek için yazılım güvenliği de çok önemlidir.[9]
Kurumsal karar alma mekanizmasının iyileştirilmesi
Yapay zekânın ekonomik ve askeri alanlarda ilerlemesi, benzeri görülmemiş siyasi sorunlara yol açacaktır.[78] Bazı akademisyenler, yapay zekâ yarışı dinamiklerini, az sayıda karar merciinin dikkatli kararlarının çoğu zaman istikrar ve felaket arasındaki farkı belirlediği soğuk savaş ile kıyaslamıştır.[79] Yapay zekâ araştırmacıları, yapay zekâ teknolojilerinin karar verme sürecine yardımcı olmak için de kullanılabileceğini ileri sürmüşlerdir.[29] Örneğin, araştırmacılar yapay zekâ tahmin ve danışmanlık sistemleri geliştirmeye başlamıştır.[80][81]
İşbirliğini kolaylaştırmak
En büyük küresel tehditlerin çoğu (nükleer savaş,[82] iklim değişikliği,[83] vb.) işbirliği yapmanın zor olduğu konulardır. İyi bilinen tutsak ikilemi senaryosunda olduğu gibi, bazı dinamikler, kendi çıkarları doğrultusunda en iyi şekilde hareket etseler bile, tüm oyuncular için kötü sonuçlara yol açabilmektedir. Örneğin, hiç kimse müdahale etmezse sonuçları önemli olsa bile, hiçbir tekil aktörün iklim değişikliğini ele almak için ciddi girişimleri bulunmamaktadır.[83]
Göze çarpan bir yapay zekâ işbirliği sorunu, 'dibe doğru yarıştan' sakınmaktır.[84] Bu durumda ülkeler ya da şirketler daha yetenekli yapay zekâ sistemleri kurmak için yarışırken güvenliği ihmal edecek ve bu da ilgili herkese zarar veren feci bir kazayla sonuçlanacaktır. Bu gibi durumlara ilişkin endişeler, insanlar arasında ve potansiyel olarak yapay zekâ sistemleri arasında işbirliğini kolaylaştırmak için hem siyasi[85] hem de teknik[86] çabalara ilham vermiştir. Çoğu yapay zekâ araştırması, tekil etmenlerin birbirinden ayrı görevler yerine getirecek şekilde tasarlanması konusuna odaklanmaktadır.[87] Akademisyenler, yapay zekâ sistemleri daha otonom hale geldikçe, etkileşim biçimlerini incelemenin ve şekillendirmenin önemli hale gelebileceğini belirtmişlerdir.[87]
Büyük Dil Modellerinin Zorlukları
Son yıllarda, büyük dil modellerinin geliştirilmesi, yapay zekâ güvenliği alanında eşsiz kaygılar ortaya çıkarmıştır. Araştırmacılar Bender ile Gebru ve diğerleri,[88] bu modellerin eğitimiyle ilgili çevresel ve mali maliyetlerin altını çizerek, Transformatör modelleri için olduğu gibi eğitim süreçlerinin enerji tüketimi ve karbon ayak izinin önemli olabileceğini vurgulamışlardır. Dahası, bu modeller genellikle devasa, işlenmemiş İnternet tabanlı veri kümelerine dayanmaktadır; bu da egemen ve önyargılı bakış açılarını kodlayarak yeterince temsil edilmeyen grupları daha da ötekileştirebilir. Büyük ölçekli eğitim verileri çok geniş olsa da çeşitliliği güvence altına almaz ve genellikle ayrıcalıklı demografik grupların dünya görüşlerini yansıtarak mevcut önyargıları ve basmakalıp düşünceleri sürdüren modellere neden olmaktadır. Bu durum, bu modellerin görünüşte tutarlı ve akıcı metinler üretme eğilimi ile daha da şiddetlenmektedir; bu da kullanıcıları, " tesadüfi papağanlar" olarak tanımlanan bir fenomen olan, anlam ve niyetin olmadığı yerlerde anlam ve niyet atfetme konusunda yanlış yönlendirebilir. Dolayısıyla bu modeller toplumsal önyargıları güçlendirme, yanlış bilgi yayma ve aşırılık yanlısı propaganda ya da deepfake üretme gibi kötü niyetli amaçlarla kullanılma riski taşımaktadır. Bu zorlukların üstesinden gelmek için araştırmacılar, veri seti oluşturma ve sistem geliştirme konusunda daha dikkatli bir planlama yapılmasını savunmakta ve eşitlikçi bir teknolojik ekosisteme olumlu katkıda bulunan araştırma projelerine duyulan ihtiyacı vurgulamaktadır.[89][90]
Yönetişimde
Yapay zekâ yönetişimi, genel olarak yapay zekâ sistemlerinin kullanımına ve geliştirilmesine rehberlik edecek normlar, standartlar ve düzenlemeler oluşturmakla ilgilenmektedir.[79]
Araştırma
Yapay zekâ güvenlik yönetişimi araştırmaları, yapay zekânın potansiyel etkilerine ilişkin temel araştırmalardan belirli uygulamalara kadar uzanmaktadır. Temelde araştırmacılar, yapay zekânın geniş uygulanabilirliği nedeniyle toplumun birçok yönünü dönüştürebileceğini savunmuş, onu elektrik ve buhar makinesiyle karşılaştırmışlardır.[91] Bazı çalışmalar, bu etkilerden oluşabilecek belirli riskleri öngörmeye odaklanmıştır; örneğin, kitlesel işsizlik,[92] silahlanma,[93] dezenformasyon,[94] gözetim,[95] ve gücün yoğunlaşmasından kaynaklanan riskler bunlara dahildir.[96] Diğer çalışmalar, hızla gelişen yapay zekâ endüstrisini izlemenin zorluğu,[97] yapay zekâ modellerinin kullanılabilirliği,[98] ve 'dibe doğru yarış' dinamikleri gibi altta yatan risk faktörlerini araştırmaktadır.[84]Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 Temmuz 2019). "The Role of Cooperation in Responsible AI Development". arXiv:1907.04534 $2.</ref> DeepMind'da uzun vadeli yönetişim ve strateji başkanı olan Allan Dafoe, yarışın tehlikelerini ve potansiyel işbirliği ihtiyacını vurgulamıştır: " Yapay zekâ güvenliği ve uyumu için, gelişmiş güçlü sistemler devreye sokulmadan önce yüksek derecede dikkatli olunması neredeyse gerekli ve yeterli bir koşul haline gelecektir; fakat aktörler, ilk girenlere büyük getiri sağlayacak ya da göreceli avantaj sağlayacak bir alanda rekabet ediyorlarsa, kendilerine idealin altında bir dikkat düzeyi tercih etmeleri yönünde baskı yapılacaktır." [85] Bir araştırma akışı, yapay zekâ hesap verebilirliğini değerlendirmek, yapay zekâ tabanlı sistemlerin denetimlerine rehberlik etmek ve desteklemek için yaklaşımlar, çerçeveler ve metotlar geliştirmeye yoğunlaşmaktadır.[99][100][101]
Yerel Yapay Zekâ Güvenlik Önlemlerini Küresel Çözümlere Ölçeklendirmek
Yapay zekâ güvenliği sorununu ele alırken, yerel ve küresel çözümler arasındaki ayrımı vurgulamak önemlidir. Yerel çözümler, bireysel yapay zekâ sistemlerine odaklanarak güvenli ve faydalı olmalarını sağlarken, küresel çözümler çeşitli yetki alanlarındaki tüm yapay zekâ sistemleri için güvenlik önlemleri uygulamaya çalışmaktadır. Bazı araştırmacılar [102] yerel güvenlik önlemlerinin küresel düzeye aktarmanın gerekliliğini savunarak bu küresel çözümler için ayrı bir sınıflandırma önermektedir. Bu yaklaşım, hiçbir kuruluşun yapay zekâ teknolojileriyle ilişkili riskleri etkili bir şekilde yönetemeyeceğini belirterek, yapay zekâ güvenliğinin uluslararası yönetişiminde işbirliğine dayalı çabaların önemini ortaya koymaktadır. Bu bakış açısı, dünya çapında gelişmiş yapay zekâ sistemlerinin ortaya çıkardığı karmaşık zorlukların üstesinden gelmeyi amaçlayan uluslararası politika oluşturma ve düzenleyici çerçevelerde devam eden çabalarla uyumludur.[103][104]
Hükümet eylemleri
Bazı uzmanlar, düzenlemelerin yeniliği engelleyeceği ve "cehalet içinde düzenleme yapmak için acele etmenin" aptallık olacağı yönündeki endişelerini ifade ederek, yapay zekâyı düzenlemek için henüz çok erken olduğunu belirtmiştir.[105][106] İş adamı Elon Musk, felaket risklerini azaltmak için önleyici eylem konusunda çağrıda bulmaktadır.[107]
Resmi mevzuatın dışında, devlet kurumları etik ve güvenlik önerileri ortaya koymuştur. Mart 2021'de ABD Yapay Zekâ Ulusal Güvenlik Komisyonu, yapay zekâdaki gelişmelerin "sistemlerin güvenlik, sağlamlık ve güvenilirlik dahil olmak üzere hedef ve değerlerle uyumlu olmasını sağlamayı" gittikçe daha önemli hale getireceğini rapor etmiştir.[108] Daha sonra, Ulusal Standartlar ve Teknoloji Enstitüsü, "yıkıcı riskler mevcut olduğu zaman riskler yeterince yönetilene kadar geliştirme ve dağıtım güvenli bir şekilde durdurulmalıdır" tavsiyesinde bulunan Yapay Zekâ Riskini yönetmeye yönelik bir taslak hazırlamıştır.[109]
Eylül 2021'de Çin Halk Cumhuriyeti, yapay zekâ kararlarının insan kontrolü altında kalması gerektiğini vurgulayarak ve hesap verebilirlik mekanizmaları çağrısında bulunarak Çin'de yapay zekâ kullanımına yönelik etik yönergeleri yayınladı. Aynı ay, Birleşik Krallık 10 yıllık Ulusal Yapay Zekâ Stratejisini [110] yayınladı; bu stratejide İngiliz hükûmetinin "bağlantısız Yapay Genel Zekânın uzun vadede oluşturduğu riski ve bunun anlamına geleceği öngörülemeyen değişiklikleri" belirtiyor.[111] Strateji, yıkıcı riskler de dahil olmak üzere uzun vadeli yapay zekâ risklerini değerlendirmeye yönelik eylemleri açıklamaktadır.[111] İngiliz hükûmeti yapay zekâ güvenliği konusunda ilk büyük küresel zirveyi düzenledi. Bu zirve 1 ve 2 Kasım 2023 tarihlerinde gerçekleşti ve "politika yapıcıların ve dünya liderlerinin yapay zekânın mevcut ve gelecekteki risklerini ve bu risklerin küresel olarak koordine edilmiş bir yaklaşımla nasıl azaltılabileceğini değerlendirmeleri için bir fırsat" şeklinde nitelendirildi.[112][113]
Özellikle Amerika Birleşik Devletleri'ndeki hükûmet kuruluşları da teknik yapay zekâ güvenlik araştırmalarının geliştirilmesini desteklemiştir. İstihbarat İleri Araştırma Projeleri Faaliyeti, yapay zekâ sistemlerine yönelik Trojan saldırılarını tespit etmek ve bunlara karşı koruma sağlamak amacıyla TrojAI projesini başlatmıştır.[114]DARPA, açıklanabilir yapay zekâ ve düşman saldırılarına karşı sağlamlığın artırılması üzerine araştırmalar yapmaktadır.[115][116]Ulusal Bilim Vakfı da Güvenilir Makine Öğrenimi Merkezi'ni destekliyor ve deneysel yapay zekâ güvenlik araştırmaları için milyonlarca dolar fon ayırıyor.[117]
Kurumsal regülasyonlar
Yapay zekâ laboratuvarları ve şirketleri genellikle resmi mevzuatın dışında kalan güvenlik uygulamalarına veya kurallarına uymaktadır.[118] Yönetişim araştırmacılarının bir amacı da bu standartları şekillendirmektir. Literatürde bulunan güvenlik tavsiyelerine örnek olarak üçüncü taraf denetimi,[119] hataların bulunması için ödüller sunulması,[119] yapay zekâ olaylarının paylaşılması [119] yönergelerin takip edilmesi.[120] araştırma veya modellerin yayınlanıp yayınlanmayacağına karar vermek,[98] ve yapay zekâ laboratuvarlarında bilgi ve siber güvenliği iyileştirmek [121] yer almaktadır.
Şirketler de bazı taahhütlerde bulundu. Cohere, OpenAI ve AI21, kötüye kullanımı azaltan "dil modellerinin dağıtımına yönelik en iyi uygulamalar" önerisinde bulundu ve üzerinde anlaşmaya vardı.[122] OpenAI, yarış dinamiklerine katkıda bulunmaktan kaçınmak için tüzüğünde "eğer değerlerle uyumlu, güvenlik bilincine sahip bir proje bizden önce Yapay Genel Zekâ'yı inşa etmeye yaklaşırsa, bu projeyle rekabet etmeyi bırakıp ona yardımcı olmaya başlayacağımızı beyan ediyoruz" ifadesine yer vermiştir.[123] Ayrıca, DeepMind CEO'su Demis Hassabis, Facebook Yapay Zekâ Direktörü Yann LeCun gibi sektör liderleri Asilomar İlkeleri [26] ve Otonom Silahlar Açık Mektubu gibi açık mektuplara imza atmışlardır.[124]
^Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 Mayıs 2021). "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers". Journal of Artificial Intelligence Research. 71. arXiv:2105.02117 $2. doi:10.1613/jair.1.12895.
^Stein-Perlman, Zach; Weinstein-Raun, Benjamin; Grace (4 Ağustos 2022). "2022 Expert Survey on Progress in AI". AI Impacts. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
^Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman (26 Ağustos 2022). "What Do NLP Researchers Believe? Results of the NLP Community Metasurvey". Association for Computational Linguistics. arXiv:2208.12852 $2.
^Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD tez). Carnegie Mellon University. 13 Mayıs 2020.
^abcBrundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson (30 Nisan 2018). "The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation". Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. doi:10.17863/cam.22520. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 28 Kasım 2022.
^Carlsmith, Joseph (16 Haziran 2022). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 $2.
^Yampolskiy, Roman V.; Spellchecker, M. S. (25 Ekim 2016). "Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures". arXiv:1610.07997 $2.
^McLean, Scott; Read, Gemma J. M.; Thompson, Jason; Baber, Chris; Stanton, Neville A.; Salmon, Paul M. (4 Temmuz 2023). "The risks associated with Artificial General Intelligence: A systematic review". Journal of Experimental & Theoretical Artificial Intelligence (İngilizce). 35 (5): 649-663. doi:10.1080/0952813X.2021.1964003. ISSN0952-813X.
^Future of Life Institute (October 2016). "AI Research Grants Program". Future of Life Institute. 23 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 23 Kasım 2022.
^abSzegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 Şubat 2014). "Intriguing properties of neural networks". ICLR. arXiv:1312.6199 $2.
^Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 Şubat 2017). "Adversarial examples in the physical world". ICLR. arXiv:1607.02533 $2.
^Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 Eylül 2019). "Towards Deep Learning Models Resistant to Adversarial Attacks". ICLR. arXiv:1706.06083 $2.
^Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 Mart 2018). "Adversarial Logit Pairing". arXiv:1803.06373 $2.
^Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 Temmuz 2018). "Motivating the Rules of the Game for Adversarial Example Research". arXiv:1807.06732 $2.
^Carlini, Nicholas; Wagner, David (29 Mart 2018). "Audio Adversarial Examples: Targeted Attacks on Speech-to-Text". IEEE Security and Privacy Workshops. arXiv:1801.01944 $2.
^Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 Eylül 2022). "Adversarial Examples in Constrained Domains". arXiv:2011.01183 $2.
^Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 Nisan 2019). "Exploring Adversarial Examples in Malware Detection". IEEE Security and Privacy Workshops. arXiv:1810.08280 $2.
^Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman (4 Mart 2022). "Training language models to follow instructions with human feedback". NeurIPS. arXiv:2203.02155 $2.
^Gao, Leo; Schulman, John; Hilton, Jacob (19 Ekim 2022). "Scaling Laws for Reward Model Overoptimization". ICML. arXiv:2210.10760 $2.
^Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 Ekim 2021). "RoMA: Robust Model Adaptation for Offline Model-based Optimization". NeurIPS. arXiv:2110.14188 $2.
^abHendrycks, Dan; Mazeika, Mantas (20 Eylül 2022). "X-Risk Analysis for AI Research". arXiv:2206.05862 $2.
^Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 Ağustos 2017). "On calibration of modern neural networks". Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research. 70. PMLR. ss. 1321-1330.
^Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 Aralık 2019). "Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift". NeurIPS. arXiv:1906.02530 $2.
^Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). "Description of Corner Cases in Automated Driving: Goals and Challenges". 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). ss. 1023-1028. doi:10.1109/ICCVW54120.2021.00119. ISBN978-1-6654-0191-3.
^Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 Ocak 2019). "Deep Anomaly Detection with Outlier Exposure". ICLR. arXiv:1812.04606 $2.
^Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 Mart 2022). "ViM: Out-Of-Distribution with Virtual-logit Matching". CVPR. arXiv:2203.10807 $2.
^Hendrycks, Dan; Gimpel, Kevin (3 Ekim 2018). "A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks". ICLR. arXiv:1610.02136 $2.
^abDoshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller (20 Aralık 2019). "Accountability of AI Under the Law: The Role of Explanation". arXiv:1711.01134 $2.
^Fong, Ruth; Vedaldi, Andrea (2017). "Interpretable Explanations of Black Boxes by Meaningful Perturbation". 2017 IEEE International Conference on Computer Vision (ICCV). ss. 3449-3457. doi:10.1109/ICCV.2017.371. ISBN978-1-5386-1032-9.
^Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). "Locating and editing factual associations in GPT". Advances in Neural Information Processing Systems. 35. arXiv:2202.05262 $2.
^Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 Temmuz 2020). "Rewriting a Deep Generative Model". ECCV. arXiv:2007.15646 $2.
^Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 Eylül 2022). "Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks". IEEE SaTML. arXiv:2207.13243 $2.
^Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 Nisan 2017). "Network Dissection: Quantifying Interpretability of Deep Visual Representations". CVPR. arXiv:1704.05796 $2.
^Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 Mart 2019). "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain". arXiv:1708.06733 $2.
^Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 Aralık 2017). "Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning". arXiv:1712.05526 $2.
^Carlini, Nicholas; Terzis, Andreas (28 Mart 2022). "Poisoning and Backdooring Contrastive Learning". ICLR. arXiv:2106.09667 $2.
^Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 Ekim 2022). "Forecasting Future World Events with Neural Networks". NeurIPS. arXiv:2206.15474 $2.
^Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 Şubat 2022). "Augmenting Decision Making via Interactive What-If Analysis". Conference on Innovative Data Systems Research. arXiv:2109.06160 $2.
^Lindelauf, Roy (2021), Osinga, Frans; Sweijs, Tim (Ed.), "Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited", NL ARMS Netherlands Annual Review of Military Studies 2020, Nl Arms (İngilizce), The Hague: T.M.C. Asser Press, ss. 421-436, doi:10.1007/978-94-6265-419-8_22, ISBN978-94-6265-418-1
^abArmstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development. Future of Humanity Institute, Oxford University.
^abDafoe, Allan. AI Governance: A Research Agenda. Centre for the Governance of AI, Future of Humanity Institute, University of Oxford.
^Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 Aralık 2020). "Open Problems in Cooperative AI". NeurIPS. arXiv:2012.08630 $2.
^Bender, E.M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜. FAccT '21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623. https://doi.org/10.1145/3442188.3445922 5 Ekim 2024 tarihinde Wayback Machine sitesinde arşivlendi..
^Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. arXiv preprint arXiv:1906.02243.
^Gursoy, Furkan; Kakadiaris, Ioannis A. (31 Ağustos 2022), System Cards for AI-Based Decision-Making for Public Policy, arXiv:2203.04754 $2
^Cobbe, Jennifer; Lee, Michelle Seng Ah; Singh, Jatinder (1 Mart 2021). "Reviewable Automated Decision-Making: A Framework for Accountable Algorithmic Systems". Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency. FAccT '21. New York, NY, USA: Association for Computing Machinery. ss. 598-609. doi:10.1145/3442188.3445921. ISBN978-1-4503-8309-7.
^Raji, Inioluwa Deborah; Smart, Andrew; White, Rebecca N.; Mitchell, Margaret; Gebru, Timnit; Hutchinson, Ben; Smith-Loud, Jamila; Theron, Daniel; Barnes, Parker (27 Ocak 2020). "Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing". Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. FAT* '20. New York, NY, USA: Association for Computing Machinery. ss. 33-44. doi:10.1145/3351095.3372873. ISBN978-1-4503-6936-7.
^Turchin, Alexey; Dench, David; Green, Brian Patrick (2019). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (16): 1-25. doi:10.3390/bdcc3010016.
^Ziegler, Bart (8 Nisan 2022). "Is It Time to Regulate AI?". Wall Street Journal.
^Smith, John (15 Mayıs 2022). "Global Governance of Artificial Intelligence: Opportunities and Challenges". The Guardian.
^National Security Commission on Artificial Intelligence (2021), Final Report
^National Institute of Standards and Technology (12 Temmuz 2021). "AI Risk Management Framework". NIST. 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.
^Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. "IARPA – TrojAI". 24 Kasım 2022 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Kasım 2022.