Искусственный интеллект. Этапы. Угрозы. Стратегии, стр. 118

21. В этом контексте особенно большое значение приобретает гипотеза симуляции. Сверхразумный агент может присвоить высокую вероятность гипотезе, в соответствии с которой он существует в компьютерной имитационной модели, а его перцептивная последовательность генерируется другим сверхразумом, в результате чего могут возникнуть различные конвергентные инструментальные причины в зависимости от представлений агента о том, в какого типа имитационной модели он может скорее всего находиться; см.: [Bostrom 2003 a].

22. Открытие фундаментальных законов физики и других фундаментальных фактов является конвергентной инструментальной целью. Поместим ее в категорию «усовершенствование когнитивных способностей», хотя также она может находиться в категории «технологическое совершенство» (поскольку новые физические явления означают создание инновационных технологий).

Глава 8. Катастрофа неизбежна?

1. Есть другие сценарии экзистенциального риска: человечество выживет, но будет пребывать в состоянии, далеком от оптимального; человечество выживет, но безвозвратно утратит большую часть своего потенциала, без которого дальнейший прогресс будет невозможен. Помимо этого, экзистенциальные риски могут быть связаны с самим процессом взрывного развития искусственного интеллекта: высока вероятность вражды между государствами, борющимися за лидерство в создании сверхразума.

2. Особенно уязвимым будет момент, когда ИИ впервые осознает необходимость скрывать свои намерения (это явление можно назвать рождением обмана). В самом начале процесса осознания ИИ еще не будет прятать свои мысли от разработчиков. Но как только поймет это окончательно, то сразу — чтобы иметь возможность продолжать работу над планом по реализации своей долгосрочной стратегии — запустит некие внутренние механизмы маскировки, скрывая в том числе и сам факт осознания (возможно, он будет использовать одни, невинно выглядящие, процессы для прикрытия других, гораздо более сложных).

3. Даже хакеры-люди способны писать небольшие и внешне невинные программы, способные делать совершенно неожиданные вещи. (Примеры можно найти, просмотрев список победителей Международного конкурса на самый запутанный код на языке Cи.)

4. Некоторые механизмы контроля над ИИ кажутся вполне надежными в каком-то определенном контексте, но если ситуация изменится, те же механизмы могут привести к катастрофическому отказу — допустимость такого поворота событий также подчеркивал Элиезер Юдковский [Yudkowsky 2008 a].

5. Кажется, впервые термин самостимуляция использовал писатель-фантаст Ларри Нивен [Niven 1973], но восходит он к реальным экспериментам по прямой электростимуляции «зон вознаграждения» мозга, которые проводили на животных Джеймс Олдс и Питер Милнер, см.: [Olds, Milner 1954; Oshima, Katayama 2010]. См. также: [Ring, Orseau 2011].

6. См. также: [Bostrom 1997].

7. Возможно, удастся настроить механизм обучения с подкреплением таким образом, что во время процесса самостимуляции будет происходить безопасное отключение системы, а не отказ по типу инфраструктурной избыточности. Проблема в другом: ситуация, по самым неизвестным причинам, все равно может выйти из-под контроля.

8. Вариант, предложенный Марвином Мински; см.: [Russell, Norvig 2010, p. 1039].

9. Для обсуждения такой темы (в отличие от многих других тем книги) большое значение имеет вопрос, какие типы цифрового разума будут наделены сознанием, в смысле будут ли у них квалиа, то есть опыт субъективных переживаний и ощущений. Нерешенным остается вопрос, как в различных ситуациях поведут себя эти антропоморфные сущности; мы в принципе не можем оценить этого, не сделав моделирования их мозга на таком уровне детализации, который мог бы привести к появлению у них сознания. Неясно также, можно ли создать пригодные к практическому использованию в процессе создания ИИ алгоритмы, например методы обучения с подкреплением, в результате работы которых у него сформируются квалиа. Пусть мы придем к выводу, что вероятность появления сознания у таких подпрограмм довольно низка, но их количество может оказаться настолько решающим, что мы не имеем права допустить даже самого незначительного риска их страданий. По нашей шкале ценностей такая опасность должна иметь серьезное значение. См. также: [Metzinger 2003, ch. 8].

10. См.: [Bostrom 2002 a; 2003 a; Elga 2004].

Глава 9. Проблемы контроля

1. См., например: [Laffont, Martimort 2002].

2. Предположим, большинство избирателей мечтают, чтобы в их стране был создан сверхразум. Они голосуют за кандидата, который обещает выполнить их пожелание, но могут ли они быть уверены, что он, придя к власти, выполнит обещания, данные в ходе предвыборной кампании, и будет реализовывать проект в соответствии с предпочтениями людей? Допустим, он сдержит слово и распорядится, чтобы правительство привлекло ученых и бизнесменов к выполнению этой задачи; но снова возникает агентская проблема: у бюрократов может быть своя точка зрения на то, что нужно делать, и проект будет реализован в соответствии с буквой, но не духом данных им инструкций. И даже если правительство честно выполнит свою часть работы, у привлеченных им исполнителей может быть собственное видение проекта. То есть проблема возникает на многих уровнях. Например, директор лаборатории, участвующей в проекте, может не спать ночами из страха, что какой-нибудь разработчик внесет несанкционированные изменения в программу, он уже представляет, как поздно ночью прокрадывается в свой кабинет профессор И. З. Менник, входит в систему и частично переписывает код, меняя конечные цели ИИ. И там, где было «служить человечеству», появляется «служить профессору И. З. Меннику».

3. Впрочем, даже во время развития ИИ возможно использовать бихевиористский подход — правда, лишь в качестве дополнительного средства тестирования в более обширной системе мер предосторожности. Если ИИ на стадии разработки начнет вести себя ненадлежащим образом, что-то обязательно пойдет наперекосяк в его системе — однако прошу обратить особое внимание, что при обратном эффекте это правило не справедливо.

4. Приведу классический пример, относящийся к уже далекому 1975 году, когда Стивен Домпье обнаружил, что его Altair 8800 (один из первых персональных компьютеров, примитивный и не экранированный) вызывает помехи в стоящем рядом радиоприемнике. Тогда он написал программу, управляющую электромагнитными разрядами, и с помощью приемника проиграл на своем Altair мелодию битловской Fool on the Hill («Дурак на холме»); см.: [Driscoll 2012]. Присутствовавший на демонстрации молодой Билл Гейтс был восхищен и заинтригован увиденным [Gates 1975]. Сегодня есть планы создания микропроцессоров со встроенным Wi-Fi-передатчиком [Greene 2012].

5. Это далеко не простой вопрос: брать под сомнение то, в чем твердо уверен. Но если мы не научимся это делать, то потеряем шанс заблаговременно принять соответствующие меры — и тогда прощай заветная мечта об освоении космоса. Пожалуй, можно было бы поговорить в пользу такого принципа: если некто в прошлом каждый раз (N случаев) был убежден в абсолютной защищенности своей системы, но всякий раз оказывалось, что он ошибался, то в очередном случае рассуждая об ее безопасности, он не вправе присваивать вероятность, превышающую 1/(N + 1).

6. В одном неофициальном эксперименте в роли ИИ выступил человек — естественно, обладающий незаурядным интеллектом. В роль охранника, которого каждый раз исполняли разные люди, входило ни при каком случае не выпускать «искусственного интелекта» из комнаты. «Искусственному интеллекту» дали всего два часа на то, чтобы убедить своего сторожа отпустить его на свободу, причем разрешили вступать в общение с ним лишь посредством текстовых сообщений. В трех случаях из пяти «искусственному интеллекту» удавалось сбегать; см.: [Yudkowsky 2002]. Если смог человек, то сможет и сверхразум. (Обратное, конечно, неверно. Даже если перед сверхразумом будет стоять более трудная задача — возможно, его охранники будут сильнее мотивированы, чем люди в ходе упомянутого эксперимента, — сверхразум справится там, где потерпит поражение человек.)