
Полная версия
ИИ: Необъяснимый, непредсказуемый, неконтролируемый
2.4. Выводы
Непредсказуемость – интуитивно понятная концепция. Как правило, мы можем прогнозировать результаты обычных физических процессов, не зная конкретного поведения отдельных атомов, – и точно так же мы можем предсказать общее поведение интеллектуальной системы, не зная отдельных промежуточных этапов. Рахван и Себриан отмечают, что «…сложные агенты ИИ часто проявляют внутреннюю непредсказуемость, демонстрируя неочевидное поведение, не поддающееся точному прогнозированию даже для собственных программистов. Такое поведение проявляется только через взаимодействие с миром и другими агентами вокруг… Фактически Алан Тьюринг с Алонсо Черчем доказали фундаментальную невозможность обеспечения определенных свойств алгоритма без запуска этого алгоритма. Существуют фундаментальные теоретические пределы нашей способности удостовериться в том, что определенный фрагмент кода всегда будет иметь нужные свойства, пока код не будет исполнен и человек не проследит его поведение» [52]. Более подробное исследование непредсказуемости и сопутствующих вопросов машинного поведения приведено у Рахвана и др. [53]
Другие ученые пришли к аналогичным выводам. «С учетом внутренней непредсказуемости ИИ не всегда целесообразно контролировать каждое действие бота» [54]. «По мере того, как компьютерные программы становятся все более умными и менее прозрачными, затрудняется прогнозирование неблагоприятных последствий, более того, сам процесс принятия решений программами тоже может стать непредсказуемым» [55]. «ИИ может стать настолько сложным, что погрязнет в ошибках и непредсказуемых последствиях, т. к. не сможет предугадать собственное поведение» [56]. «…поведение ИИ настолько усложнится, что станет непредсказуемым и потому потенциально опасным для человека» [57].
В контексте безопасности ИИ [58–61] и управления ИИ [62] непредсказуемость означает, что некоторые стандартные инструменты и механизмы защиты не смогут обеспечить безопасность использования развитых интеллектуальных систем. Например, Батхаи пишет о законодательном контроле: «…в силу непредсказуемости крайне маловероятно, что закон сможет поощрять или предотвращать некоторые последствия. Что хуже, слабость правовых структур позволит злоумышленникам с помощью алгоритмов перекладывать свои расходы на других без надежды на возмещение нанесенного ущерба» [55].
Напрашивается вывод, что непредсказуемость никогда не позволит нам получить полностью безопасный ИИ, но мы все равно стремимся повысить безопасность ИИ, потому что в какой-то мере можем давать прогнозы относительно разрабатываемых нами ИИ. Конечные цели агентов могут быть совершенно произвольными [63], но инструментальные цели [64] универсальны для всех достаточно интеллектуальных агентов. Дополнительный анализ показал, что все инструментальные цели можно свести к одному стимулу или метацели любых агентов – стать самым умным агентом, что в качестве побочного эффекта может породить сверхсознание [65], воздействие которого на поведение агента сделает его еще менее предсказуемым для нас.
Использованные материалы
1. Yampolskiy R.V. Artificial Intelligence Safety and Security. 2018: Chapman and Hall/CRC Press.
2. Callaghan V. et al. Technological Singularity. 2017: Springer.
3. Baum, S.D. et al. Long-term trajectories of human civilization. Foresight, 2019. 21(1): p. 53–83.
4. Duettmann A. et al. Artificial General Intelligence: Coordination & Great Powers.
5. Charisi V., et al. Towards moral autonomous systems. arXiv preprint arXiv: 1703.04741, 2017.
6. Brundage M., et al. The malicious use of artificial intelligence: Forecasting, prevention, and mitigation. arXiv preprint arXiv:1802.07228, 2018.
7. Fisher M., Lynch N., Peterson M. Impossibility of distributed consensus with one faulty process. Journal of ACM, 1985. 32(2): p. 374–382.
8. Grossman S.J., Stiglitz J.E. On the impossibility of informationally efficient markets. The American Economic Review, 1980. 70(3): p. 393–408.
9. Kleinberg J.M. An impossibility theorem for clustering, in Advances in Neural Information Processing Systems. 2003, MIT Press.
10. Strawson G. The impossibility of moral responsibility. Philosophical Studies, 1994. 75(1): p. 5–24.
11. Bazerman M.H., Morgan K.P., Loewenstein G.F. The impossibility of auditor independence. Sloan Management Review, 1997. 38: p. 89–94.
12. List C., Pettit P. Aggregating sets of judgments: An impossibility result. Economics & Philosophy, 2002. 18(1): p. 89–110.
13. Dufour J.-M. Some impossibility theorems in econometrics with applications to structural and dynamic models. Econometrica: Journal of the Econometric Society, 1997. 65: p. 1365–1387.
14. Yampolskiy R.V. What are the ultimate limits to computational techniques: Verifier theory and unverifiability. Physica Scripta, 2017. 92(9): p. 093001[17].
15. Armstrong S., Mindermann S. Impossibility of deducing preferences and rationality from human policy. arXiv preprint arXiv:1712.05812, 2017.
16. Eckersley P. Impossibility and uncertainty theorems in AI value alignment (or why your AGI should not have a utility function). arXiv preprint arXiv:1901.00064, 2018.
17. Yampolskiy R.V. The space of possible mind designs, in International Conference on Artificial General Intelligence. 2015. Springer.
18. Rice H.G. Classes of recursively enumerable sets and their decision problems. Transactions of the American Mathematical Society, 1953. 74(2): p. 358–366.
19. Wolfram S. A New Kind of Science. Vol. 5. 2002: Wolfram Media Champaign.
20. Moore C. Unpredictability and undecidability in dynamical systems. Physical Review Letters, 1990. 64(20): p. 2354.
21. Moore C. Generalized shifts: Unpredictability and undecidability in dynamical systems. Nonlinearity, 1991. 4(2): p. 199.
22. Vinge V. Technological singularity, in VISION-21 Symposium Sponsored by NASA Lewis Research Center and the Ohio Aerospace Institute. 1993.
23. Cognitive Uncontainability, in Arbital. https://arbital.com/p/uncontainability (дата обращения: 15.10.2024).
24. Itti L., Baldi P. A principled approach to detecting surprising events in video, in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). 2005. IEEE.
25. Itti L., Baldi P.F. Bayesian surprise attracts human attention, in Advances in Neural Information Processing Systems. 2006, 49(10): pp. 1295–1306. MIT Press.
26. Storck J., Hochreiter S., Schmidhuber J. Reinforcement driven information acquisition in non-deterministic environments, in Proceedings of the International Conference on Artificial Neural Networks, Paris. 1995. Citeseer.
27. Schmidhuber J. Simple algorithmic theory of subjective beauty, novelty, surprise, interestingness, attention, curiosity, creativity, art, science, music, jokes. Journal of SICE, 2009. 48(1): p. 21–32.
28. Yudkowsky E. Expected Creative Surprises, in Less Wrong. https://www.lesswrong.com/posts/rEDpaTTEzhPLz4fHh/expected-creative-surprises (дата обращения: 15.10.2024).
29. Yudkowsky E. Belief in Intelligence, in Less Wrong. https://www.lesswrong.com/posts/HktFCy6dgsqJ9WPpX/belief-in-intelligence (дата обращения: 15.10.2024).
30. Yudkowsky E. Aiming at the Target, in Less Wrong. https://www.lesswrong.com/posts/CW6HDvodPpNe38Cry/aiming-at-the-target (дата обращения: 15.10.2024).
31. Vingean Uncertainty, in Arbital. https://arbital.com/p/Vingean_uncertainty (дата обращения: 15.10.2024).
32. Campbell M., Hoane Jr A.J., Hsu F.-H. Deep blue. Artificial Intelligence, 2002. 134(1–2): p. 57–83.
33. Ferrucci D.A. Introduction to “This is Watson”. IBM Journal of Research and Development, 2012. 56(3–4): p. 235–249.
34. Yudkowsky E. Eliezer Yudkowsky on AlphaGo’s Wins, in Future of Life Institute. https://futureoflife.org/2016/03/15/eliezer-yudkowsky-on-alphagos-wins (дата обращения: 15.10.2024).
35. Silver D., et al. A general reinforcement learning algorithm that masters chess, shogi, and go through self-play. Science, 2018. 362(6419): p. 1140–1144.
36. Pistono F., Yampolskiy R.V. Unethical research: how to create a malevolent artificial intelligence. arXiv preprint arXiv:1605.02817, 2016.
37. Yampolskiy R.V. What to do with the singularity paradox? in Philosophy and Theory of Artificial Intelligence. 2013, Springer. p. 397–413.
38. Babcock J., Kramar J., Yampolskiy R. The AGI Containment Problem, in The Ninth Conference on Artificial General Intelligence (AGI2015). July 16–19, 2016. NYC, USA.
39. Majot A.M., Yampolskiy R.V. AI safety engineering through introduction of self-reference into felicific calculus via artificial pain and pleasure, in IEEE International Symposium on Ethics in Science, Technology and Engineering. May 23–24, 2014. Chicago, IL: IEEE.
40. Lehman J., Clune J., Misevic D. The surprising creativity of digital evolution, in Artificial Life Conference Proceedings. 2018. MIT Press.
41. Yampolskiy R.V. Predicting future AI failures from historic examples. Foresight, 2019. 21(1): p. 138–152[18].
42. Vinge’s Principle, in Arbital. https://arbital.com/p/Vinge_principle (дата обращения: 15.10.2024).
43. Vingean Reflection, in Aribital. https://arbital.com/p/Vingean_reflection (дата обращения: 15.10.2024).
44. Cantlon J.F., Brannon E.M. Basic math in monkeys and college students. PLoS Biology, 2007. 5(12): p. e328.
45. Baum S., Barrett A., Yampolskiy R.V. Modeling and interpreting expert disagreement about artificial superintelligence. Informatica, 2017. 41(7): p. 419–428.
46. Bostrom N. Singularity and Predictability. http://mason.gmu.edu/~rhanson/vc.html (дата обращения: 15.10.2024).
47. Nielsen M. Comment by Michael Nielsen. http://mason.gmu.edu/~rhanson/vc.html (дата обращения: 15.10.2024).
48. Yudkowsky E., Herreshoff M. Tiling Agents for Self-modifying AI, and the Lobian Obstacle. MIRI Technical Report, 2013.
49. Strong Cognitive Uncontainability, in Arbital. https://arbital.com/p/strong_uncontainability (дата обращения: 15.10.2024).
50. Israeli N., Goldenfeld N. Computational irreducibility and the predictability of complex physical systems. Physical Review Letters, 2004. 92(7): p. 074105.
51. Fallenstein B., Soares N. Vingean Reflection: Reliable Reasoning for SelfImproving Agents. 2015: Citeseer.
52. Rahwan I., Cebrian M. Machine Behavior Needs to Be an Academic Discipline, in Nautilus. https://nautil.us/machine-behavior-needs-to-be-an-academic-discipline-237022 (дата обращения: 15.10.2024).
53. Rahwan I., et al. Machine behaviour. Nature, 2019. 568(7753): p. 477.
54. Mokhtarian E. The bot legal code: developing a legally compliant artificial intelligence. Vanderbilt Journal of Entertainment & Technology Law, 2018. 21: p. 145.
55. Bathaee Y. The artificial intelligence black box and the failure of intent and causation. Harvard Journal of Law & Technology, 2018. 31(2): p. 889.
56. Turchin A., Denkenberger D. Classification of global catastrophic risks connected with artificial intelligence. AI & Society, 2018. 35: p. 1–17.
57. De Garis H. The Artilect War. https://agi-conf.org/2008/artilectwar.pdf (дата обращения: 15.10.2024).
58. Babcock J., Kramar J., Yampolskiy R. V. Guidelines for artificial intelligence containment. arXiv preprint arXiv:1707.08476, 2017.
59. Trazzi M., Yampolskiy R. V. Building safer AGI by introducing artificial stupidity. arXiv preprint arXiv:1808.03644, 2018.
60. Behzadan V., Munir A., Yampolskiy R. V. A psychopathological approach to safety engineering in AI and AGI, in International Conference on Computer Safety, Reliability, and Security. 2018. Springer.
61. Ozlati S., Yampolskiy R. The formalization of AI risk management and safety standards, in Workshops at the Thirty-First AAAI Conference on Artificial Intelligence. 2017.
62. Ramamoorthy A., Yampolskiy R. Beyond mad? The race for artificial general intelligence. ITU J, 2018. 1: p. 1–8.
63. Bostrom N. The superintelligent will: motivation and instrumental rationality in advanced artificial agents. Minds and Machines, 2012. 22(2): p. 71–85.
64. Omohundro S.M. The Basic AI Drives, in AGI. 2008.
65. Yampolskiy R.V. Artificial consciousness: An illusionary solution to the Hard problem. Reti, Saperi, Linguaggi, 2018. (2): p. 287–318[19].
Глава 3
Необъяснимость и непостижимость[20]
Если бы лев умел говорить, мы бы его не поняли.
Людвиг ВитгенштейнМожно было бы описать все научно, но это не имело бы смысла; это было бы лишено смысла, как если бы вы описали симфонию Бетховена как изменение волнового давления.
Альберт ЭйнштейнОбъяснять что-либо в этой жизни вообще очень трудно… Не важно, на каком языке… Особенно если объясняешь не другим, а самому себе. Очень важно не перестараться, иначе где-нибудь обязательно вылезет ложь.
Харуки МуракамиЯ понимаю, что вы не понимаете.
Григорий ПерельманЕсли вы не можете объяснить это просто – значит, вы сами не понимаете этого до конца.
Альберт ЭйнштейнЕсли бы человеческий мозг был так прост, что мы могли бы его понять, мы были бы так просты, что не смогли бы его понять.
Эмерсон М. Пью3.1. Введение
На протяжении десятилетий ИИ-проекты опирались на человеческий опыт специалистов в области инженерии знаний. Не было проблем ни с проектированием, ни с пониманием ИИ. Например, экспертные системы, которые часто создавались на основе дерева принятия решений, были идеальными моделями человеческого выбора, совершенно понятными и разработчикам, и конечным пользователям. В последнее десятилетие, когда с развитием систем машинного обучения на основе глубоких нейронных сетей (Deep Neural Network, DNN) доминирующая методология ИИ коренным образом менялась, простотой для понимания пришлось пожертвовать. Сегодняшние системы представляют собой «черные ящики» (это не то же самое, что «AI-boxing»: «ИИ в изолированной программной среде» [1, 2]), недоступные для понимания человеком, но исключительно производительные в отношении как результатов, так и обучения на новых предметных областях. Пока существуют большие данные и большие вычисления, для получения сверхчеловеческой производительности [3] не требуется человеческих знаний [4]. Благодаря новым возможностям ИИ на основе DNN такие системы применяются в принятии решений в отделах кадров [5], приемных комиссиях [6], управлении инвестициями [7], знакомствах [8], обеспечении разнообразия [9], безопасности [10, 11], рекомендательных системах [12], банковской сфере [13] и многих других важных предметных областях. Поскольку многие из таких предметных областей регулируются законодательством, очень желательно, а зачастую и обязательно [14, 15], чтобы они были способны объяснить, как они пришли к выбранному решению и доказать свою беспристрастность [16]. Еще важнее то, что для создания безопасных и защищенных систем искусственного интеллекта [17] необходимо понимать, что они делают и почему. Особый интерес для безопасности ИИ [18–25] представляет прогнозирование сбоев ИИ и объяснение их причин [26].
В настоящее время очень много исследований [27–41] посвящено разработке объяснимого ИИ. В следующем разделе рассматриваются основные результаты и общие тенденции по данной теме.
3.2. Обзор литературных источников
Объяснимому искусственному интеллекту (eXplainable Artificial Intelligence, XAI) посвящены сотни работ [42]. По словам представителей Управления перспективных исследовательских проектов Министерства обороны США (DARPA) [27], XAI должен «создавать более объяснимые модели, сохраняя высокий уровень эффективности обучения… чтобы пользователи-люди могли понимать ИИ, доверять ему и эффективно работать в партнерстве с ИИ нового поколения». В задачи данной главы не входит подробный анализ литературных источников, посвященных объяснимости и постижимости, но читателям рекомендуется ознакомиться с соответствующими обзорами [43–45]. Миллер [46] полагает, что общественные науки могли бы помочь разобраться в человеческом механизме объяснения, чтобы передать это знание XAI – но люди часто сами не понимают или не могут объяснить те или иные вещи. Например, многие люди неспособны объяснить, как они распознают лица, а ведь мы часто ставим такую задачу перед компьютерами [47, 48].
Несмотря на изобилие публикаций по XAI и смежным концепциям [49–51], тема необъяснимости или непостижимости ИИ затрагивается лишь косвенно. Иногда ограничения объяснимости обсуждаются в следующем ключе: «Алгоритмы машинного обучения (МО) по своей природе предусматривают высокую степень связности между входными признаками, из-за чего сложно вычленить такие функции в понятную для человека форму… Если одиночную линейную трансформацию можно интерпретировать по весовым коэффициентам входных признаков для каждого выходного класса, то для нескольких слоев с нелинейными взаимосвязями в каждом слое придется извлекать сверхсложную иерархическую структуру, а это нелегкая задача, необходимость решения которой неочевидна [52]… Как уже отмечалось, с учетом сложной структуры моделей МО сложные алгоритмы МО могут создавать множество точных моделей для одного и того же набора входных переменных и задач прогнозирования за счет сходных, но не идентичных внутренних методов решения в сети, поэтому в разных точных моделях подробности объяснения тоже могут различаться. Подобная системная нестабильность делает автоматически генерируемые объяснения сложными для восприятия» [42].
Сатклифф и др. говорят о непостижимых теоремах [53]: «Доступность для восприятия соответствует усилию, которое должен сделать человек для того, чтобы понять теорему. Теоремы из множества частей или со сложной структурой можно считать трудными для восприятия». Магглтон и др. [54] предлагают «использовать длительность ознакомления как приблизительный показатель непонимания, т. е. людям потребуется много времени… если программа трудна для восприятия. Время ознакомления как приблизительный показатель измерить легче, чем понимание».
Компромисс между объяснимостью и постижимостью признают [52], но не доводят до логического вывода. «Как правило, точность требует более сложных методов прогнозирования, [но] из простых интерпретируемых функций получаются не самые точные средства прогнозирования» [55]. «И действительно, одни алгоритмы поддаются интерпретации лучше других, и зачастую нужен компромисс между точностью и возможностью интерпретации: самые точные ИИ/МО-модели (глубокие нейросети, градиентный бустинг деревьев решений, случайный лес, метод опорных векторов и т. д.) обычно не очень хорошо поддаются объяснению, а самые понятные модели (линейная или логистическая регрессия) обычно менее точны» [42].
Непостижимость подтверждается широко известными утверждениями о невозможности. Чарлсворт доказал свою теорему постижимости, пытаясь сформулировать ответ на такие вопросы, как: «Если могут существовать программные средства с полноценным искусственным интеллектом уровня человека, поймут ли их люди?» [56] Описывая следствия своей теоремы применительно к ИИ, он отмечал [57]: «Теорема постижимости представляет собой первую математическую теорему, из которой следует невозможность любого агента ИИ или естественного агента – в т. ч. человека, который может заблуждаться, – выполнять строгую дедуктивную интерпретацию проблемы самопостижимости… Самопостижимость в каком-то представлении может быть залогом некоего подобия самокритики, полезной для саморазвития, которое может дать определенным агентам возможность чаще побеждать». Резонно сделать вывод, что система, которая себя не понимает, не сможет себя объяснить.
Эрнандес-Оральо и др. вводят понятие k-непостижимости (также известное как k-сложность) [58]. «С формальной точки зрения, это аналог нашего понятия хороших объяснений, которые сложно усвоить. Как мы понимаем, k-непостижимая строка с высоким значением k (сложная для понимания) сложнее, чем k-сжимаемая строка (сложная для усвоения) [59] и отличается от классической вычислительной сложности (приводящей к низкой скорости вычислений). Определение значения k для конкретной строки невозможно. К счастью, обратное выражение, т. е. является ли строка k-постижимой при произвольном k, поддается вычислению… Колмогоровская сложность измеряет количество информации, а не сложность ее восприятия» [58].
В своей работе, посвященной пространству возможных разумов, Ямпольский рассматривает пределы понимания других агентов [60]: «Модель каждого разума соответствует некому целому числу и, следовательно, является конечной, но, поскольку количество разумов является бесконечной величиной, определенная их часть имеет гораздо больше состояний, чем остальные. Данное свойство справедливо для всех разумов. Следовательно, поскольку человеческий разум имеет конечное число возможных состояний, есть разумы, которые человеческий разум никогда не сможет понять до конца, т. к. подобные модели разумов имеют гораздо большее число состояний, что делает их понимание невозможным. Это можно продемонстрировать на примере принципа Дирихле». Хиббард подчеркивает влияние непостижимости ИИ на безопасность: «С учетом непостижимости их мыслей мы не сможем разобраться в последствиях конфликтов между их и нашими интересами».
Постепенно мы начинаем понимать, что по мере увеличения мощности ИИ его модели успешного поведения будут нам все менее понятны [61]: «…при глубоком обучении результаты получают на основе множества переменных со множеством условий и преобразованиями во множестве слоев нейросетей, так что человек просто неспособен понять модель, построенную компьютером… Компьютеры явно превзошли нас по способности находить различия и закономерности и делать выводы. Это одна из причин, почему люди пользуются компьютерами. Можно не упрощать явления под относительно простую модель, пусть компьютер создает модели любого нужного ему размера. Но это также означает, что мы будем знать лишь то, что нам выдадут машины, действия которых мы не можем отследить, объяснить или понять… Некоторые новые модели недоступны для понимания. Они могут существовать только в виде весовых коэффициентов бесчисленных цифровых триггеров, соединенных в сеть, от которых последовательно распространяются слои связанных взвешенных триггеров, представляющих огромное число переменных, влияющих друг на друга так, что мы не в состоянии вывести для них какие-либо общие принципы».
«Сегодня машины показали нам, что даже при простых, элегантных, красивых и благоразумных правилах область, которую они регулируют, настолько детализирована, сложна и взаимосвязана, что все влияет на все сразу – и бесповоротно, и что человеческий мозг и знания даже на миллиметр не приблизились к ее пониманию… Мы стали полагаться на непрозрачные модели для обоснования наших взглядов, и это ставит нас в несколько странное положение. Знание подразумевает обоснование взглядов, и в данном случае обоснование состоит из моделей, загруженных в машины и непостижимых для человеческого разума… Но МО дает надежду, что однажды непрозрачные машинные модели станут намного более предсказуемыми, чем те, что созданы вручную и понятны человеку. В этом случае наше знание – если мы воспользуемся им – будет зависеть от обоснований, которые мы просто не понимаем… Скорее всего, мы и дальше будем полагаться на обоснования, которые даже не можем понять. И дело не только в том, что мы неспособны понять их, как человек с улицы не поймет ход мыслей специалиста по теории струн. Просто сама природа компьютерных суждений абсолютна несхожа с человеческими суждениями. Это чуждая нам логика» [61].
3.3. Необъяснимость
Широко известен ряд утверждений о невозможности во многих областях исследований [62–70]. Новые утверждения появляются в сфере исследований ИИ – например, это утверждения о непроверяемости [71], непредсказуемости[21] [72], ограничении предпочтительных выводов [73] и согласовании ценностей [74]. В этом разделе рассматривается понятие необъяснимости ИИ и демонстрируется, что некоторые решения систем сверхинтеллекта в принципе не могут быть объяснены. Рассмотрим самый интересный пример, в котором сверхразумный ИИ действует в новых и неограниченных областях. Простые примеры слабых ИИ, принимающих решения в ограниченных областях (например игра в крестики-нолики), и объяснимы, и понятны. Соответственно, можно получить целый спектр ИИ от совершенно объяснимых и постижимых до совершенно необъяснимых и непостижимых. Необъяснимость здесь означает невозможность дать совершенно точное и одновременно совершенно понятное объяснение определенных решений интеллектуальной системы.
Глубокие искусственные нейросети становятся все больше, иногда они состоят из миллионов нейронов, тысяч слоев и миллиардов весов соединений, приближаясь к размеру человеческого мозга, а может, даже превосходя его. Сети обучаются на больших данных, из которых они получают миллионы векторов признаков для принятия решений, где каждый признак влияет на решение пропорционально набору весов. Чтобы объяснить решение, основанное буквально на миллиардах факторов, ИИ должен либо упростить объяснение и тем самым сделать его менее точным, конкретным, детализированным, либо привести его в точности – но такое объяснение ничего не прояснит из-за своей семантической сложности, огромного размера и абстрактного представления данных. Точное представление станет просто копией обученной модели DNN.




