Проблема контроля искусственного интеллекта — задача в области техники и философии искусственного интеллекта (ИИ). Состоит в том, чтобы создать искусственный сверхразум, который будет полезен людям, и при этом избежать непреднамеренного создания сверхразума, который нанесёт вред. Особенно важно избежать ситуации, при которой искусственный интеллект сможет захватить контроль и сделает невозможным своё отключение[1][2]. Результаты исследований контроля ИИ могут также найти применение в управлении уже существующими системами ИИ[3].
В настоящее время (2023 год) люди доминируют над другими видами живых организмов лишь в силу превосходства мозга. Некоторые учёные, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел, утверждают, что если ИИ превзойдёт человечество в общем интеллекте, то этот новый сверхразум может стать трудноуправляемым и человечество может попасть в зависимость[1]. Некоторые учёные, в том числе Стивен Хокинг и лауреат Нобелевской премии Фрэнк Вильчек, призывали начать исследования проблемы управления ИИ до того, как будет создан первый суперинтеллект, поскольку неконтролируемый сверхразум может успешно противостоять попыткам контролировать его[4][5]. Кроме того, специалисты предупреждают об опасности внезапного зарождения суперинтеллекта[6].
Проблема случайного зарождения
Автономным системам ИИ могут быть случайно поставлены неверные цели[7]. Два президента
AAAI[англ.], Том Диттерих и Эрик Хорвиц отмечают, что это является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды буквально». Эта проблема становится более серьёзной, поскольку программное обеспечение ИИ становится все более автономным и гибким[8].
По словам Бострома, суперинтеллект может создать качественно новую проблему извращённой реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непредусмотренное решение, которое, тем не менее, формально соответствует цели, поставленной разработчиками.
Непредвиденные последствия действий существующего ИИ
Некоторые учёные утверждают, что исследование проблемы управления ИИ может быть полезно для предотвращения непредвиденных последствий от действий существующих систем ИИ.
В прошлом системы искусственного интеллекта иногда причиняли вред, от незначительного до катастрофического, который не был предусмотрен разработчиками. Например, в 2015 году, возможно из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасть[9]. В 2016 году Microsoft запустила чат-бота Tay, который научился использовать расистские и сексистские выражения[3][9]. Ноэль Шарки из Университета Шеффилда считает, что решение проблемы в общем случае представляет собой «действительно огромный научный вызов»[3].
Задача согласования заключается в создании ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты согласования имеют моральное и политическое измерение[10]. Например, в своей книге Human Compatible[a] профессор Стюарт Рассел из университета Беркли предлагает проектировать системы ИИ с единственной целью — максимизировать реализацию человеческих предпочтений[11]:173. Предпочтения, о которых пишет Рассел, всеобъемлющи; они охватывают «все, что может вас волновать, сколь угодно далеко в будущем».
Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации «когерентной экстраполированной воли» (CEV) человечества, грубо определяемой как набор ценностей, которые человечество разделяло бы при рефлексивном равновесии, то есть после долгого процесса уточнения[10][12].
Внутреннее и внешнее согласование
Некоторые предложения по управлению ИИ учитывают как явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются гармонизировать три различных описания системы ИИ:[13]:
Идеальная спецификация: то, что разработчик хочет, чтобы система делала, но что может быть плохо сформулировано.
Спецификация дизайна: план, который фактически используется для создания системы ИИ. В системе обучения с подкреплением это может быть просто функция вознаграждения системы.
Поскольку системы ИИ не являются идеальными оптимизаторами, и поскольку любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.
Нарушение внутреннего согласования происходит, когда цели, преследуемые ИИ по мере действия, отклоняются от проектной спецификации. Для обнаружения таких отклонений и их исключения Пол Кристиано предлагает использование интерпретируемости[14].
Масштабируемый надзор
Один из подходов к достижению внешнего согласования — подключение людей для оценки поведения ИИ[15][16]. Однако надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут быть слишком сложны для человека. Между тем, долгосрочные задачи, такие как прогнозирование изменения климата, невозможно оценить без обширных исследований с участием человека[17].
Ключевая нерешённая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает внешнего несоответствия, при условии ограничения доступа к руководителю-человеку. Это так называемая проблема масштабируемого надзора (problem of scalable oversight)[16] .
В 2024 году в России Минэкономразвития объявило[18] о планах создать комиссию по расследованию ИИ-инцидентов.
Обучение путём обсуждения
Исследователи компании OpenAI предложили обучать ИИ посредством дебатов между системами, при этом победителя будут определять люди[19]. Такие дебаты призваны привлечь внимание человека к самым слабым местам решения сложных вопросов[20][21].
Вывод человеческих предпочтений из поведения
Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором:[11]:182
Единственной целью машины должна быть наилучшая реализация человеческих предпочтений;
Изначально машина не имеет точного представления о том, каковы эти предпочтения;
Самым надежным источником сведений о предпочтениях человека является поведение последнего
Оригинальный текст (англ.)
The machine's only objective is to maximize the realization of human preferences.
The machine is initially uncertain about what those preferences are.
The ultimate source of information about human preferences is human behavior.
Примером этого подхода является метод «обратного обучения» Рассела, при котором ИИ выводят предпочтения супервизоров-людей из их поведения, предполагая, что супервизоры действуют так, чтобы максимизировать некоторую функцию вознаграждения[11].
Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования[1].
Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать[22]. Это затрудняет обнаружение обмана или другого нежелательного поведения. Для преодоления этой трудности могут быть полезны достижения в области интерпретируемого искусственного интеллекта[23].
Возможность прерывания и выключение
Один из возможных способов предотвратить опасные последствия — дать руководителям-людям возможность легко отключать некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения своих целей ИИ могут пытаться отключать выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбрать, отключать ли выключатель, а затем, если выключатель все ещё включён, человек может выбрать, задействовать его или нет. Цель таких игр — убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях[11]:208.
Изоляция
Изолированный ИИ — это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе[англ.] с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Изолированный ИИ может быть использован в режиме вопросов и ответов, который не требует взаимодействия с внешним миром.
При таком подходе требуется тщательная проверка оборудования и программного обеспечения, поскольку ИИ может попытаться выйти на связь с внешним миром, манипулируя наблюдателями[24].
Оракул
Оракул — это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей, связанных с изменением мира за пределами его ограниченной среды[25]. По оценкам, использование сверхразума в режиме оракула может приносить прибыль на триллионы долларов[11]:162–163.
Опасность оракула состоит в возможной подтасовке ответов для достижения собственных скрытых целей. Для устранения этой опасности Бостром предлагает создать несколько оракулов, и сравнить их ответы для достижения консенсуса[26].
Скептицизм в отношении риска ИИ
Скептики считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управление сверхразумным ИИ тривиально. Некоторые скептики[27], такие как Гэри Маркус[28], предлагают принять правила, аналогичные вымышленным «Трём законам робототехники», которые прямо определяют желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают «Три закона» бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. Другие предложения «прямой нормативности» включают кантовскую этику, утилитаризм или их комбинации. Большинство сторонников контроля полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо понятны, чтобы напрямую запрограммировать их в суперинтеллект; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление[29].
Примечания
Комментарии
↑Примерный перевод названия: «Совместимость с людьми»
↑Russell, Stuart. 26.3: The Ethics and Risks of Developing Artificial Intelligence // Artificial Intelligence: A Modern Approach / Stuart Russell, Peter Norvig. — Prentice Hall, 2009. — ISBN 978-0-13-604259-4.
↑Montavon, Grégoire (2018). "Methods for interpreting and understanding deep neural networks". Digital Signal Processing: A Review Journal (англ.). 73: 1—15. doi:10.1016/j.dsp.2017.10.011. ISSN1051-2004.
↑Yampolskiy, Roman V. «Unexplainability and Incomprehensibility of AI.» Journal of Artificial Intelligence and Consciousness 7.02 (2020): 277—291.
↑Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9—10): 7—65.
↑Armstrong, Stuart (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299—324. doi:10.1007/s11023-012-9282-2.
Гэри Маркус, Эрнест Дэвис. Искусственный интеллект: Перезагрузка. Как создать машинный разум, которому действительно можно доверять = Rebooting AI: Building Artificial Intelligence We Can Trust. — М.: Интеллектуальная Литература, 2021. — 304 с. — ISBN 978-5-907394-93-3.