
Полная версия
ИИ: Необъяснимый, непредсказуемый, неконтролируемый
1.7. Об этой книге
Во вступительной главе мы закладываем фундамент для центральных тем, отраженных в названии книги, трех принципов невозможности ИИ: необъяснимости, непредсказуемости, неконтролируемости. Главная мысль заключается в том, что по мере своего развития ИИ становится все менее предсказуемым, его все труднее объяснить и контролировать. В каждой главе эти темы критически анализируются, автор углубляется в детали, выдвигая на передний план наиболее важные аспекты ИИ. Главы не связаны друг с другом, поэтому их можно читать в любом порядке или пропускать.
В последующих главах мы рассмотрим некоторые утверждения о непредсказуемости, необъяснимости и непостижимости ИИ, подразумевающие, что действия ИИ сложно спрогнозировать и что принципы, лежащие в основе его решений, остаются загадкой даже для его создателей. Еще одна сложная концепция – непроверяемость – подчеркивает трудности проверки доказательств, создаваемых ИИ, и тем самым бросает тень на его непогрешимость.
Как обсуждается в главе «Невозможность владения», сама суть владения ИИ конфликтует с традиционными представлениями об ответственности, что делает крайне затруднительным владение продвинутыми интеллектуальными системами. При этом концепция неконтролируемости ставит под сомнение нашу способность управлять возрастающей мощью искусственного интеллекта, особенно сильного ИИ.
В следующих главах описаны потенциальные угрозы ИИ и условия их проявления. В главе «Пути к опасному ИИ» рассматриваются потенциальные способы получить вредоносный ИИ. Глава «Сбои» экстраполирует потенциальные риски и беспрецедентные последствия сбоев ИИ. В каждой последующей главе приводятся дополнительные аргументы в пользу того, что по мере своего развития ИИ может в корне изменить общество, причем необязательно на пользу человеку.
Во второй половине книги подробно разбираются противоречивые вопросы правообъектности и сознания ИИ. Оцениваются последствия наделения ИИ юридическими правами, рассматриваются концепции возможности возникновения эгоистичных мемов и взлома правовой системы.
В главе «Персонализированные вселенные» изучается концепция согласования ценностей. В этой области много сложностей, но она предлагает пути оптимального согласования ИИ с индивидуальными человеческими ценностями.
Глава «Человек ≠ сильный ИИ» посвящена различиям между способностями сильного ИИ и человекоподобного ИИ. В ней утверждается, что человек, по сути, не обладает общим интеллектом.
В последней главе, «Скептицизм», изучаются отрицание и недооценка рисков, связанных с ИИ, проводятся параллели с другими формами научного скептицизма.
Читателя ждет увлекательный и иногда пугающий мир ИИ. Зная эти базовые концепции и понимая их следствия, человек сможет лучше подготовиться к будущему, которое будет создаваться под действием ИИ. Мы надеемся, что эта книга поможет читателю проникнуться сложностями и проблемами ИИ и осознать, что на пути к ИИ придется не только создавать интеллектуальные машины, но и разбираться в их сложных отношениях с человеком и обществом. В путь!
Использованные материалы
1. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1): p. 138–152[4].
2. Yampolskiy R.V. Artificial Intelligence Safety and Security. 2018: Chapman and Hall/CRC Press.
3. Cave S., Dihal K. Hopes and fears for intelligent machines in fiction and reality. Nature Machine Intelligence, 2019. 1(2): p. 74–78.
4. Avin S., et al. Filling gaps in trustworthy development of AI. Science, 2021. 374(6573): p. 1327–1329.
5. Beridze I., Butcher J. When seeing is no longer believing. Nature Machine Intelligence, 2019. 1(8): p. 332–334.
6. Tzachor A., et al. Artificial intelligence in a crisis needs ethics with urgency. Nature Machine Intelligence, 2020. 2(7): p. 365–366.
7. Cave S., OhEigeartaigh S. S. Bridging near-and long-term concerns about AI. Nature Machine Intelligence, 2019. 1(1): p. 5–6.
8. Theodorou A., Dignum V. Towards ethical and socio-legal governance in AI. Nature Machine Intelligence, 2020. 2(1): p. 10–12.
9. Nature Machine Intelligence, How to be responsible in AI publication. Nature Machine Intelligence, 2021. 3. https://www.nature.com/articles/s42256-021-00355-6 (дата обращения: 14.10.2024).
10. Crawford K. Time to regulate AI that interprets human emotions. Nature, 2021. 592(7853): p. 167–167.
11. Yampolskiy R. On controllability of artificial intelligence, in IJCAI-21 Workshop on Artificial Intelligence Safety (Al Safety 2021). 2020.
12. Bostrom N. Superintelligence: Paths, Dangers, Strategies. 2014: Oxford University Press[5].
13. Pfleeger S., Cunningham R. Why measuring security is hard. IEEE Security & Privacy, 2010. 8(4): p. 46–54.
14. Howe W., Yampolskiy R. Impossibility of unambiguous communication as a source of failure in Al systems, in AISafety@ IJCAI. 2021.
15. Yampolskiy R.V. AGI control theory, in Artificial General Intelligence: 14th International Conference, AGI 2021, Palo Alto, CA, USA, October 15–18,2021, Proceedings 14. 2022. Springer.
16. Yampolskiy R.V. Unexplainability and incomprehensibility of AI. Journal of Artificial Intelligence and Consciousness, 2020. 7(2): p. 277–291[6].
17. Yampolskiy R.V. Unpredictability of AI: On the impossibility of accurately predicting all actions of a smarter agent. Journal of Artificial Intelligence and Consciousness, 2020. 7(1): p. 109118[7].
18. Yampolskiy R. V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[8].
19. Wang P. On defining artificial intelligence. Journal of Artificial General Intelligence, 2019. 10(2): p. 1–37.
20. Wang P. Non-Axiomatic Reasoning System: Exploring the Essence of Intelligence. 1995: Citeseer.
21. Legg S., Hutter M. Universal intelligence: A definition of machine intelligence. Minds and Machines, 2007. 17(4): p. 391–444.
22. Yampolskiy R.V. On the origin of synthetic life: Attribution of output to a particular algorithm. Physica Scripta, 2016. 92(1): p. 013002.
23. Yampolskiy R.V. Artificial intelligence safety engineering: Why machine ethics is a wrong approach, in Philosophy and Theory of Artificial Intelligence, V. C. Muller, Editor. 2013, Springer. p. 389–396.
24. Yampolskiy R.V., – Safety Engineering for Artificial General Intelligence. Topoi. Special Issue on Machine Ethics & the Ethics of Building Intelligent Machines, 2012.
25. Yudkowsky E. Complex value systems in friendly AI, in Artificial General Intelligence, J. Schmidhuber, K. Thorisson, and M. Looks, Editors. 2011, Springer. p. 388–393.
26. Yampolskiy R.V. Artificial Superintelligence: A Futuristic Approach. 2015: Chapman and Hall/CRC.
27. Yampolskiy, R.V., Unexplainability and Incomprehensibility of Artificial Intelligence. https://arxiv.org/abs/1907.03869 (дата обращения: 14.10.2024).
28. Yampolskiy R.V. Unpredictability of AI. arXiv preprint arXiv:1905.13053, 2019.
29. Soares N., et al. Corrigibility, in Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
30. Baum S.D., et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.
31. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.
32. Trazzi M., Yampolskiy R.V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.
33. Hadfield-Menell D., et al. The off-switch game, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.
34. Elamrani A., Yampolskiy R.V. Reviewing tests for machine consciousness. Journal of Consciousness Studies, 2019. 26(5–6): p. 35–64.
35. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318: https://www.rivisteweb.it/doi/10.12832/92302 (дата обращения: 14.10.2024)[9].
36. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felidfic calculus via artificial pain and pleasure, in 2014 IEEE International Symposium on Ethics in Science, Technology and Engineering. 2014, IEEE.
37. Scott P.J., Yampolskiy R.V. Classification schemas for artificial intelligence failures. arXiv preprint arXiv:1907.07771, 2019.
38. Yampolskiy R.V. Leakproofing singularity-artificial intelligence confinement problem. Journal of Consciousness Studies JCS, 2012. 19(1–2): p. 194–214. https://www.ingentaconnect.com/contentone/imp/jcs/2012/00000019/f0020001/art00014 (дата обращения: 14.10.2024).
39. Armstrong S., Sandberg A., Bostrom N. Thinking inside the box: controlling and using an oracle AI. Minds and Machines, 2012. 22(4): p. 299–324.
40. Babcock J., Kramar J., Yampolskiy R. The AGI containment problem, in International Conference on Artificial General Intelligence. 2016. Springer.
41. Muehlhauser L., Bostrom N. Why we need friendly AI. Think, 2014. 13(36): p. 41–47.
42. Yampolskiy R.V. On controllability of AI. arXiv preprint arXiv:2008.04071, 2020.
43. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1). https://www.emerald.com/insight/content/doi/10.1108/FS-04-2018-0034/full/html (дата обращения: 14.10.2024)[10].
44. Buckner C. Understanding adversarial examples requires a theory of artefacts for deep learning. Nature Machine Intelligence, 2020. 2(12): p. 731–736.
45. Yampolskiy R.V. On the controllability of artificial intelligence: An analysis of limitations. Journal of Cyber Security and Mobility, 2022: p. 321–404. https://doi.org/10.13052/jcsm2245-1439.1132 (дата обращения: 14.10.2024)[11].
Глава 2
Непредсказуемость[12]
По мере обучения машины могут развить непредсказуемые стратегии такими темпами, которые недостижимы для их программистов.
Норберт ВинерЭто проблема, с которой мы сталкиваемся каждый раз, когда думаем о создании интеллекта, превосходящего наш собственный.
Вернор ВинджТворческая непредсказуемость интеллекта непохожа на хаотичную непредсказуемость генератора случайных чисел.
Элиезер Юдковский2.1. Введение в проблему непредсказуемости
В последнее десятилетие с ростом возможностей ИИ немало ученых осознало, как важно не только создавать интеллектуальные системы, но и обеспечивать их безопасность [1–6]. К сожалению, безопасность ИИ – очень молодая сфера, и исследователи еще только определяют ее основные проблемы и ограничения. Принципы невозможности существуют во многих научных областях [7–13], а теперь и в сфере безопасности ИИ [14–16]. В этой главе мы сосредоточимся на малоизученной концепции непредсказуемости интеллектуальных систем [17], которая ограничивает наше понимание последствий разработки интеллектуальных систем и затрудняет решение задач проверки ПО, контроля интеллектуальных систем и безопасности ИИ в целом.
В теоретической информатике и разработке ПО в целом широко известен ряд утверждений о невозможности, и некоторые из них тесно связаны с предметом исследования главы. Например, согласно теореме Райса никаким эффективным вычислительным методом нельзя предсказать, проявит ли программа определенное нетривиальное поведение – например, выдаст ли она определенный результат [18]. Аналогично принцип вычислительной несводимости Вольфрама гласит, что выяснить сложное поведение программ можно, только запустив их [19]. И любая физическая система, которую можно представить как машину Тьюринга, поведет себя непредсказуемо [20, 21].
Принцип непредсказуемости ИИ – одно из многочисленных утверждений о невозможности в сфере безопасности ИИ. Используются также термины «непознаваемость» [22] и «когнитивная невместимость» [23], которые отражают нашу неспособность точно и последовательно предсказывать конкретные действия интеллектуальной машины – даже если нам известны конечные цели системы. Непредсказуемость связана с необъяснимостью и непостижимостью ИИ, но не совпадает с ними полностью. Она не означает, что невозможен статистический анализ с точностью выше случайной, но указывает на общее ограничение эффективности анализа, особенно ярко выраженное у передовых систем сильного ИИ (сверхинтеллекта) в новых областях.
На самом деле непредсказуемость таких сверхинтеллектуальных систем можно доказать. Приведем доказательство от противного. Предположим обратное – принцип непредсказуемости неверен и человек способен точно предсказать решения сверхинтеллекта. Это означает, что люди могут принимать такие же решения, что и сверхинтеллект, т. е. они настолько же умны, насколько умен сверхинтеллект. Это противоречит определению сверхинтеллекта как системы, превосходящей людей по интеллекту. Следовательно, наше первоначальное предположение ложно и принцип непредсказуемости верен.
Непредсказуемость можно формально измерить с помощью байесовой теории, по которой определяется разность между итоговыми и исходными представлениями агента, делающего предсказание [24–27]. «Непредсказуемость интеллекта неожиданна по-своему, необычным образом, нисколько не похожим на хаос или случайность. Существует удивительный баланс между непредсказуемостью действий и предсказуемостью результатов» [28]. Оценить величину неожиданности пропорционально разности в интеллекте между предсказателем и агентом, действия которого предсказываются, позволяет простейший эвристический алгоритм. Информацию об исследовании этой темы в доступной форме можно почерпнуть у Юдковского [29, 30].
Непредсказуемость можно наблюдать в действующих узкоспециализированных системах с производительностью выше человеческой. Разработчики известных интеллектуальных систем, победивших в играх – Deep Blue в шахматах [31, 32], IBM Watson в телевикторине «Jeopardy!»[13] [33], AlphaZero в го [34, 35], – не знали, какие решения их ИИ будут принимать на каждом шаге. Они могли предсказать только то, что ИИ попытается выиграть всеми доступными средствами – и это происходило. То же справедливо и для разработчиков сильного искусственного интеллекта. Они могут знать конечные цели своих систем, но не пошаговые планы достижения этих целей, и это очень важно для безопасности ИИ [36–39]. С конкретными примерами неожиданных действий интеллектуальных агентов можно ознакомиться в двух обзорах по этой теме: в области эволюционных алгоритмов [40] и интеллектуальных агентов на слабом ИИ [41].
Любого состояния можно достичь бесконечным количеством способов. Подавляющее большинство этих способов неприемлемы и небезопасны, у многих из них есть отрицательные побочные эффекты. В более сложных задачах и в большинстве реальных случаев даже общая цель системы может быть неизвестна или известна лишь в абстрактной формулировке, такой как «сделать мир лучше». В некоторых случаях можно узнать конечную цель, но даже если мы научимся предсказывать общий результат с некой статистической значимостью, невозможно будет спрогнозировать все шаги превосходящего интеллекта на пути к цели. Более низкий интеллект не может точно предсказать все решения более высокого интеллекта. Эта концепция известна как принцип Винджа [42]. «Принцип Винджа подразумевает, что, когда один агент разрабатывает другой (или модифицирует собственный код), он должен утвердить схему другого агента, не зная в точности его дальнейших действий» [43].
2.2. Предсказуемость: что мы можем предвидеть. Обзор литературных источников
В свое время Вернор Виндж отметил в своей статье о технологической сингулярности [22], что сверхинтеллектуальные машины создадут непредсказуемое будущее. Автор говорит о горизонте прогнозирования непознаваемого (см. также тезис о горизонте событий [44]), за которым человек уже не может что-либо предсказать: «Пожалуй, первыми осознали практические последствия писатели-фантасты. Именно авторов твердой НФ[14] интересует потенциальное воздействие технологий на людей. Но на пути к грядущему писатели все чаще останавливаются перед непрозрачной стеной. Когда-то они отодвигали фантазии об умных машинах на миллионы лет вперед, но теперь они видят, как их самые тщательные экстраполяции привели к непознаваемому…» [22]. Однако не все согласны с этим мнением [45]. В данном разделе приводятся примеры из литературных источников, которые утверждают, что свойства интеллектуальных систем вполне могут оказаться предсказуемыми.
Ник Бостром в своем отклике на работу Винджа под названием «Сингулярность и предсказуемость» говорит [46]: «Не уверен, что непредсказуемость сохранится… Думаю, мы можем достаточно достоверно предсказать даже кое-что, находящееся за пределами сингулярности. Например то, что сверхинтеллектуальная сущность, возникшая в сингулярности, запустит сферическую волну колонизации, которая распространится в пространстве со скоростью, близкой к скорости света… Другой пример: если существует несколько независимых конкурирующих агентов (хотя, подозреваю, их может и не быть), некоторые аспекты их поведения, возможно, окажутся предсказуемы в плане экономической целесообразности… Также может намного повыситься точность прогнозирования. Поскольку сверхинтеллект или постлюди, которые будут править миром после сингулярности, будут созданы нами – а возможно, и будут нами – на мой взгляд, мы имеем возможность повлиять на их ценности. Их ценности определят облик их мира, поскольку они будут способны за счет передовых технологий изменить мир в соответствии со своими ценностями и желаниями. Не исключено, что для предсказания событий после сингулярности достаточно определить ценности тех, кто создаст сверхинтеллект… И быть может, достаточно описать относительно небольшое число гипотез о том, каким будет мир после сингулярности. Каждая из гипотез должна соответствовать какой-либо несомненной ценности. Несомненные ценности – это ценности, которые с высокой долей вероятности разделят самые влиятельные люди к тому времени, когда будет создан первый сверхинтеллект. Каждая из этих ценностей определяет аттрактор – состояние мира, максимально полезное с точки зрения данной ценности. Затем мы можем предположить, что мир с большой вероятностью перейдет в один из таких аттракторов. В частности, можно ожидать, что в объеме колонизированного пространства материя постепенно (возможно, очень быстро) перестроится в структуры с максимальной ценностью, – т. е. вмещающие как можно больше определенной ценности» [46].
Аналогичные возражения мы встречаем у Майкла Нильсена [47]: «Что означает “непознаваемое”? Мне кажется, Виндж использует термин непознаваемого в значении “непредсказуемого”, поэтому правильный вопрос – должно ли будущее после пришествия доминирующего ИИ непременно стать непредсказуемым?.. Мне кажется нелепым считать, что мы неспособны сделать успешные прогнозы о мире доминирующего ИИ. Да, все изменится. Возможно, наши прогнозы окажутся не так правдоподобны, как раньше. Но я верю, что мы все еще можем делать обоснованные прогнозы на будущее. В крайнем случае, можно исключить некоторые варианты. Например, можно исключить то, чего не позволят законы физики. В отношении “непредсказуемости” будущего под властью ИИ часто звучит утверждение, что возможно будет все, что допускают законы физики» [47].
Авторы статей на платформе Arbital, обсуждая неопределенность Винджа, пишут: «Кроме того, наша способность размышлять о более умных агентах, чем мы сами, не ограничена знанием конкретной цели и предсказанием пути ее достижения. Если мы обнаружим огромную, виртуозно сконструированную инопланетную машину, мы сможем предположить, что инопланетяне превосходят человека по уровню интеллекта, даже если нам ничего не известно об их целях. Когда мы видим металлические трубы, мы можем предположить, что трубы – это устойчивая, оптимальная механическая конструкция, так сделанная из твердого металла, чтобы сохранять свою форму. Увидев сверхпроводящие кабели, мы можем предположить, что это способ эффективной передачи электричества из одного места в другое, даже не зная об их конечном предназначении. Это и есть инструментальная конвергенция[15]: если мы понимаем, что инопланетная машина эффективно получает и распределяет энергию, мы, вероятно, видим в ней разумно устроенный артефакт, служащий некой цели, хотя сама цель нам неизвестна» [31].
«Неопределенность Винджа – особое состояние познания, в котором мы рассматриваем достаточно интеллектуальные программы. В частности, мы в меньшей степени уверены в том, что сможем точно предсказать их действия, но в большей степени уверены в результате этих действий. (Обратите внимание – здесь нет утверждения, будто мы гносеологически беспомощны и ничего не можем знать о существах умнее нас.)» [31]. Юдковский с Херрешоффом еще раз подчеркивают: «Мы не можем точно предсказать действия более умного агента, но мы способны по его устройству предсказать последствия работы этого агента или выбрать одно из ряда возможных последствий путем отбора одной из возможных конструкций» [48].
Аргументы против непредсказуемости обычно делятся на два типа:
1) «Очевидная известность определенной области. Например, раз мы с высокой точностью изучили законы химии и знаем их истоки в молекулярной динамике, мы можем считать, что даже произвольный интеллектуальный агент не сумеет превратить свинец в золото с помощью химических реагентов, не обладающих радиоактивностью…
2) …Обратный логический вывод из парадокса Ферми[16], который в некоторой степени свидетельствует об ограниченных возможностях даже самых мощных агентов, какие могут существовать в нашей вселенной. Например, стандартное моделирование физических процессов все еще может преподнести нам сюрпризы, но любое незапланированное путешествие на сверхсветовой скорости в ранее недоступную точку сильно затруднит объяснение парадокса Ферми» [49].
На более практическом примере предсказуемости Израэли и Голденфельд «…обнаружили, что вычислительно несводимые физические процессы можно прогнозировать и даже свести путем вычислений на грубом уровне описания. Полученные нами грубые данные [клеточные автоматы] эмулируют поведение исходных систем в целом, без учета мелких деталей» [50]. Дальнейшая работа над безопасностью ИИ будет в основном заключаться в том, чтобы определить, какие аспекты интеллектуальных машин можно прогнозировать и знать, даже если большая часть будущих состояний навсегда останется для нас непредсказуемой. В следующем разделе рассматриваются первые шаги на этом пути.
2.3. Когнитивная невместимость
Machine Intelligence Research Institute (MIRI), ведущая исследовательская организация в области безопасности ИИ, рассматривает непредсказуемость в рамках работы над безопасным самосовершенствованием агентов ИИ, обозначая ее как когнитивную невместимость. Этот термин означает, что человеческий разум неспособен представить все возможные решения и (или) стратегии передовых интеллектуальных систем. «Сильная когнитивная невместимость означает, что агенту известны некоторые факты, неизвестные нам, и он может использовать их для выработки стратегий, успешность которых мы не сможем предсказать заранее… Когда агент может достичь успеха, используя варианты, которые мы не можем ни представить себе, ни даже понять, даже заранее ознакомившись с ними, этот агент считается строго когнитивно невместимым…» [23]. «Если мы твердо уверены в способности самомодифицирующихся систем рассуждать о более умных агентах, представляется разумным выработать некую теоретическую основу для адекватного объяснения более умных агентов» [51]. Даже ИИ, уступающие человеку, могут быть непредсказуемыми для исследователей-людей. «Хотя непредсказуемость Винджа служит классической формой проявления невместимости, можно представить и другие варианты – например, ИИ, работающий в широкой области знаний, может осуществлять поиск в областях, малодоступных для людей, в целом оставаясь глупее и некомпетентнее человека. В этом случае стратегии ИИ все равно могут быть непредсказуемыми для нас, даже если в целом он менее эффективен или менее компетентен» [23].
«Аргументы в пользу сильной невместимости ссылаются на:
• Содержательность и частичную неизвестность определенной предметной области. Например, психология человека очень сложна, в ней много неизвестных связей, ранее обнаруженные уязвимости часто были совершенно неожиданными, следовательно, предметная область психологии человека должна обладать строгой невместимостью.
• Влияние взгляда извне на предшествующие способности, обусловленное когнитивными преимуществами. X век не может вместить XX век даже при том условии, что в обоих столетиях жил один биологический вид, homo sapiens. Почему мы решили, что именно наше поколение узнало истинные законы вселенной?» [49].




