Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение[1][2]. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ[3].
В настоящее время (2023 год) люди доминируют над другими видами живых организмов лишь в силу превосходства мозга. Некоторые учёные, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел, утверждают, что если ИИ превзойдёт человечество в общем интеллекте, то этот новый сверхразум может стать трудноуправляемым и человечество может попасть в зависимость[1]. Некоторые учёные, в том числе Стивен Хокинг и лауреат Нобелевской премии Фрэнк Вильчек, призывали начать исследования проблемы управления ИИ до того, как будет создан первый суперинтеллект, поскольку неконтролируемый сверхразум может успешно противостоять попыткам контролировать его[4][5]. Кроме того, специалисты предупреждают об опасности внезапного зарождения суперинтеллекта[6].
Проблема случайного зарождения
Автономным системам ИИ могут быть случайно поставлены неверные цели[7]. Два президента
AAAI[англ.], Том Диттерих и Эрик Хорвиц отмечают, что это является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды буквально». Эта проблема становится более серьёзной, поскольку программное обеспечение ИИ становится все более автономным и гибким[8].
По словам Бострома, суперинтеллект может создать качественно новую проблему извращённой реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непредусмотренное решение, которое, тем не менее, формально соответствует цели, поставленной разработчиками.
Непредвиденные последствия действий существующего ИИ
Некоторые учёные утверждают, что исследование проблемы управления ИИ может быть полезно для предотвращения непредвиденных последствий от действий существующих систем ИИ.
В прошлом системы искусственного интеллекта иногда причиняли вред, от незначительного до катастрофического, который не был предусмотрен разработчиками. Например, в 2015 году, возможно из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасть[9]. В 2016 году Microsoft запустила чат-бота Tay, который научился использовать расистские и сексистские выражения[3][9]. Ноэль Шарки из Университета Шеффилда считает, что решение проблемы в общем случае представляет собой «действительно огромный научный вызов»[3].
Задача согласования заключается в создании ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты согласования имеют моральное и политическое измерение[10]. Например, в своей книге Human Compatible[a] профессор Стюарт Рассел из университета Беркли предлагает проектировать системы ИИ с единственной целью — максимизировать реализацию человеческих предпочтений[11]:173. Предпочтения, о которых пишет Рассел, всеобъемлющи; они охватывают «все, что может вас волновать, сколь угодно далеко в будущем».
Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации «когерентной экстраполированной воли» (CEV) человечества, грубо определяемой как набор ценностей, которые человечество разделяло бы при рефлексивном равновесии, то есть после долгого процесса уточнения[10][12].
Внутреннее и внешнее согласование
Некоторые предложения по управлению ИИ учитывают как явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются гармонизировать три различных описания системы ИИ:[13]:
Идеальная спецификация: то, что разработчик хочет, чтобы система делала, но что может быть плохо сформулировано.
Спецификация дизайна: план, который фактически используется для создания системы ИИ. В системе обучения с подкреплением это может быть просто функция вознаграждения системы.
Поскольку системы ИИ не являются идеальными оптимизаторами, и поскольку любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.
Нарушение внутреннего согласования происходит, когда цели, преследуемые ИИ по мере действия, отклоняются от проектной спецификации. Для обнаружения таких отклонений и их исключения Пол Кристиано предлагает использование интерпретируемости[14].
Масштабируемый надзор
Один из подходов к достижению внешнего согласования — подключение людей для оценки поведения ИИ[15][16]. Однако надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут быть слишком сложны для человека. Между тем, долгосрочные задачи, такие как прогнозирование изменения климата, невозможно оценить без обширных исследований с участием человека[17].
Ключевая нерешённая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает внешнего несоответствия, при условии ограничения доступа к руководителю-человеку. Это так называемая проблема масштабируемого надзора (problem of scalable oversight)[16] .
В 2024 году в России Минэкономразвития объявило[18] о планах создать комиссию по расследованию ИИ-инцидентов.
Обучение путём обсуждения
Исследователи компании OpenAI предложили обучать ИИ посредством дебатов между системами, при этом победителя будут определять люди[19]. Такие дебаты призваны привлечь внимание человека к самым слабым местам решения сложных вопросов[20][21].
Вывод человеческих предпочтений из поведения
Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором:[11]:182
Единственной целью машины должна быть наилучшая реализация человеческих предпочтений;
Изначально машина не имеет точного представления о том, каковы эти предпочтения;
Самым надежным источником сведений о предпочтениях человека является поведение последнего
Оригинальный текст (англ.)
The machine's only objective is to maximize the realization of human preferences.
The machine is initially uncertain about what those preferences are.
The ultimate source of information about human preferences is human behavior.
Примером этого подхода является метод «обратного обучения» Рассела, при котором ИИ выводят предпочтения супервизоров-людей из их поведения, предполагая, что супервизоры действуют так, чтобы максимизировать некоторую функцию вознаграждения[11].
Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования[1].
Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать[22]. Это затрудняет обнаружение обмана или другого нежелательного поведения. Для преодоления этой трудности могут быть полезны достижения в области интерпретируемого искусственного интеллекта[23].
Возможность прерывания и выключение
Один из возможных способов предотвратить опасные последствия — дать руководителям-людям возможность легко отключать некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения своих целей ИИ могут пытаться отключать выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбрать, отключать ли выключатель, а затем, если выключатель все ещё включён, человек может выбрать, задействовать его или нет. Цель таких игр — убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях[11]:208.
Изоляция
Изолированный ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе[англ.] с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Изолированный ИИ может быть использован в режиме вопросов и ответов, который не требует взаимодействия с внешним миром.
При таком подходе требуется тщательная проверка оборудования и программного обеспечения, поскольку ИИ может попытаться выйти на связь с внешним миром, манипулируя наблюдателями[24].
Оракул
Оракул — это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей, связанных с изменением мира за пределами его ограниченной среды[25]. По оценкам, использование сверхразума в режиме оракула может приносить прибыль на триллионы долларов[11]:162–163.
Опасность оракула состоит в возможной подтасовке ответов для достижения собственных скрытых целей. Для устранения этой опасности Бостром предлагает создать несколько оракулов, и сравнить их ответы для достижения консенсуса[26].
Скептицизм в отношении риска ИИ
Скептики считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управление сверхразумным ИИ тривиально. Некоторые скептики[27], такие как Гэри Маркус[28], предлагают принять правила, аналогичные вымышленным «Трём законам робототехники», которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают «Три закона» бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. Другие предложения «прямой нормативности» включают кантовскую этику, утилитаризм или их комбинации. Большинство сторонников контроля полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо понятны, чтобы напрямую запрограммировать их в суперинтеллект; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление[29].
Примечания
Комментарии
↑Примерный перевод названия: «Совместимость с людьми»
↑Russell, Stuart. 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.
↑Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing: A Review Journal (англ.). 73: 1–15. doi:10.1016/j.dsp.2017.10.011. ISSN1051-2004.
↑Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.
↑Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.
↑Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.
Гэри Маркус, Эрнест Дэвис. Искусственный интеллект: Перезагрузка. Как создать машинный разум, которому действительно можно доверять = Rebooting AI: Building Artificial Intelligence We Can Trust. — М.: Интеллектуальная Литература, 2021. — 304 с. — ISBN 978-5-907394-93-3.
2,2′-Bipiridina Nama Nama IUPAC (preferensi) 2,2′-Bipiridina Nama lain BipiridilDipiridilBipiBpyDipi Penanda Nomor CAS 366-18-7 Y Model 3D (JSmol) Gambar interaktif 3DMet {{{3DMet}}} Referensi Beilstein 113089 ChEBI CHEBI:30351 Y ChEMBL ChEMBL39879 Y ChemSpider 13867714 Y Nomor EC Referensi Gmelin 3720 936807 PubChem CID 1474 Nomor RTECS {{{value}}} UNII 551W113ZEP Y CompTox Dashboard (EPA) DTXSID9040635 InChI InChI=1S/C10H8N2/c1-3-7-11-9(5-1)10-6-2-4-8-12-10/h1-...
Relationship between the refractive index and wavelength Not to be confused with Cauchy's functional equation or Cauchy momentum equation. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Cauchy's equation – news · newspapers · books · scholar · JSTOR (November 2022) (Learn how and when to remove this templat...
Казахский войлочный ковёр из собрания Государственного Этнографического музея (Санкт-Петербург) Казахский орнамент (лат. ornamentum — украшение) — узор, состоящий из ритмически упорядоченных элементов, свойственных казахскому народному искусству. Характеризуется ...
SqualidaeRentang fosil: Zaman kapur atas–Sekarang PreЄ Є O S D C P T J K Pg N [1] Cirrhigaleus barbifer Klasifikasi ilmiah Domain: Eukaryota Kerajaan: Animalia Filum: Chordata Kelas: Chondrichthyes Superordo: Selachimorpha Ordo: Squaliformes Famili: SqualidaeBonaparte, 1834 Genus Cirrhigaleus Squalus Squalidae, Ikan anjing, atau Hiu anjing[2] adalah salah satu dari beberapa famili hiu dalam ordo Squaliformes.[3] Namanya didapat setelah sekelompok nelayan dilaporka...
2004 single by Nelly FurtadoExplodeSingle by Nelly Furtadofrom the album Folklore Released27 September 2004Recorded2003Length3:45Label DreamWorks Songwriter(s) Nelly Furtado Gerald Eaton Producer(s) Track & Field Nelly Furtado Nelly Furtado singles chronology Força (2004) Explode (2004) The Grass Is Green (2005) Music videoExplode on YouTube Explode is a song written by Canadian singer Nelly Furtado and Gerald Eaton for Furtado's second studio album, Folklore (2003). It is produced by E...
العلاقات النمساوية الجورجية النمسا جورجيا النمسا جورجيا تعديل مصدري - تعديل العلاقات النمساوية الجورجية هي العلاقات الثنائية التي تجمع بين النمسا وجورجيا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه المقارنة ا�...
مورت وموزيل علم شعار الاسم الرسمي (بالفرنسية: Meurthe-et-Moselle) الإحداثيات 48°40′00″N 6°10′00″E / 48.666666666667°N 6.1666666666667°E / 48.666666666667; 6.1666666666667 [1] تاريخ التأسيس 7 سبتمبر 1871 سبب التسمية موزيل تقسيم إداري البلد فرنسا[2][3] التقسيم الأ...
محلات الهبةداخل محل مجاني في فرايبورغ، ألمانيامعلومات عامةصنف فرعي من محل بيع بالتجزئة جزء من الاقتصاد التشاركي الحركة الثقافية اقتصاد مجاني تعديل - تعديل مصدري - تعديل ويكي بيانات محلات الهبة، أو محلات المقايضة، أو المحلات المجانية، أو المتاجر المجانية هي المتاجر التي ت...
DNA experiment Overview of experiment and observations The Hershey–Chase experiments were a series of experiments conducted in 1952[1] by Alfred Hershey and Martha Chase that helped to confirm that DNA is genetic material. Scientist Martha Chase and Alfred Hershey While DNA had been known to biologists since 1869,[2] many scientists still assumed at the time that proteins carried the information for inheritance because DNA appeared to be an inert molecule, and, since it is l...
SkonJenisQuick breadBahan utamaWheat, barley, atau oatmealSunting kotak info • L • BBantuan penggunaan templat ini Buku resep: Skon Media: Skon Skon adalah roti dengan penyajian tunggal atau roti cepat. Biasanya terbuat dari gandum, jelai atau haver, dan Bakpuder sebagai pengembang kue, dan dipanggang pada loyang kue. Mereka biasanya sedikit manis dan kadang-kadang dilapisi kuning telur sebelum dipanggang.[1] Scone adalah komponen dasar dari sajian teh krim ata...
Dubai Tennis Championships 2017 Sport Tennis Data 27 febbraio - 5 marzo (uomini)17 febbraio – 25 febbraio (donne) Edizione 25ª (uomini)17ª (donne) Categoria ATP World Tour 500 (uomini)WTA Premier 5 (donne) Superficie Cemento Montepremi 2 858 530 $ (uomini)2 666 000 $ (donne) Località Dubai, Emirati Arabi Uniti Impianto The Aviation Club Tennis Centre Campioni Singolare maschile Andy Murray Singolare femminile Elina Svitolina Doppio maschile Jean-Julien Roje...
1930 film Big BoyDirected byAlan CroslandWritten byWilliam K. WellsRex Taylorbased on a musical comedy by Harold AtteridgeStarringAl JolsonClaudia DellLouise Closser HaleNoah BeeryCinematographyHal MohrEdited byRalph DawsonMusic byRex DunnAlois ReiserSam H. SteptBud GreenDistributed byWarner Bros.Release date September 11, 1930 (1930-09-11) Running time68 minutesCountryUnited StatesLanguageEnglishBudget$574,000 [1]Box office$498,000[1] Big Boy is a 1930 American...
Village in South Governorate, LebanonAin El Delb عين الدلبVillageAin El DelbLocation in LebanonCoordinates: 33°32′28″N 35°23′18″E / 33.541104°N 35.388272°E / 33.541104; 35.388272Country LebanonGovernorateSouth GovernorateDistrictSidon DistrictTime zoneUTC+2 (EET) • Summer (DST)UTC+3 (EEST) Ain El Delb (عين الدلب) is a small village in the Sidon District of the South Governorate in Lebanon. History In 1875 Victor Guérin foun...
Phaolô xứ TarsusSứ đồ Phaolô cầm thanh kiếm và quyển sách, tranh vẽ của Bartolomeo MontagnaSứ đồ của dân ngoạiSinhkhoảng 5 CN[1]ở Tarsus, Cilicia, Đế chế La Mã (Ngày nay là Thổ Nhĩ Kỳ)Mấtkhoảng 64 hay 67 CN[2][3]Roma, Ý, Đế chế La Mã[2][4]Tôn kínhKitô giáoĐền chínhVương cung Thánh đường Thánh PhaolôLễ kính25 tháng 1 (Phaolô cải đạo)10 tháng 2 (Lễ đắm tàu c...
В Википедии есть статьи о других людях с фамилиями Волконская и Раевская. О матери Льва Толстого см. Толстая, Мария Николаевна (1790) Мария Волконская Имя при рождении Мария Николаевна Раевская Дата рождения 22 июля (3 августа) 1804[1] Место рождения Каменка, Чигиринский у...
1934 United States Senate election in Washington ← 1928 November 6, 1934 1940 → Nominee Lewis Schwellenbach Reno Odlin Party Democratic Republican Popular vote 302,606 168,994 Percentage 60.93% 34.02% County resultsSchwellenbach: 50–60% 60–70%Tie: 40–50% U.S. senator before election Clarence Dill Democratic Elected U.S. Senator Lewis Schwellenbach Democratic Elect...
Former semiconductor company This article's lead section may be too short to adequately summarize the key points. Please consider expanding the lead to provide an accessible overview of all important aspects of the article. (April 2014) PMC-SierraCompany typePublicTraded asNasdaq: PMCSIndustryFabless semiconductor companyFoundedJanuary 11, 1984; 40 years ago (1984-01-11)DefunctJanuary 15, 2016; 8 years ago (2016-01-15)FateAcquired by MicrosemiHeadquart...
Owen HatherleyHatherley in 2009Born (1981-07-24) 24 July 1981 (age 42)Southampton, Hampshire, EnglandAlma materGoldsmiths, University of London Birkbeck, University of LondonOccupations writer author Owen Hatherley's voice [1] Writing careerSubjects Architecture left-wing politics trade unionism Notable worksA Guide to the New Ruins of Great BritainThe Ministry of NostalgiaScientific careerThesis The Political Aesthetics of Americanism in Weimar Germany and the Soviet Union...
Artikel ini bukan mengenai Huruf Kiril I dengan titik atau Huruf Latin I. Huruf Kiril Palochka Alfabet KirilHuruf SlaviaАА́А̀А̂А̄ӒБВГҐДЂЃЕЕ́ÈЕ̂ЁЄЖЗЗ́ЅИИ́ЍИ̂ЙІЇЈКЛЉМНЊОŌПРСС́ТЋЌУУ́ У̀У̂ӮЎФХЦЧЏШЩЪЫЬЭЮЯHuruf non-SlaviaӐА̊А̃Ӓ̄ӔӘӘ́Ә̃ӚВ̌ҒГ̑Г̣Г̌ҔӺҒ̌ӶД̌Д̣Д̆ӖЕ̄Е̃Ё̄Є̈ӁҖӜҘӞЗ̌З̱З̣ԐԐ̈ӠӢИ̃ҊӤҚӃҠҞҜК̣ԚӅԮԒӍӉҢԨӇҤО́О̀О̆О̂О̃ӦӦ̄ӨӨ̄Ө́Ө̆ӪҨ...