Муза и алгоритм. Создают ли нейросети настоящее искусство?
Муза и алгоритм. Создают ли нейросети настоящее искусство?

Полная версия

Муза и алгоритм. Создают ли нейросети настоящее искусство?

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
2 из 3

Приведённые истории показывают, что действительно нужно людям от технологий, и это вовсе не скорость мобильного интернета. Запросы и ожидания носят крайне человечный характер. Собственно, как раз поэтому в настоящей книге мы говорим о том, могут ли машины создавать подлинное искусство.

Всё дело в том, что именно через художественное люди от века определяли и познавали себя. Средства бывали самыми разными, от угля на влажном камне пещеры или сложной по своему химическому составу краски на холсте до вычурных слов на языках с витиеватой грамматикой или множества коробок с целлулоидной киноплёнкой. Неизменным оставалось одно: всякий раз находилась какая-то таинственная причина, толкавшая человека на то, чтобы создавать нечто, принадлежащее к категории искусства. Это обстоятельство, заметим, объясняет, почему искусствоведение и история прекрасного входят в число наиболее увлекательных и невероятных сфер знания – они посвящены огромной загадке, едва ли не таинству или волшебству: почему люди во все времена находили основания делать эти странные, имеющие весьма сомнительное отношение к выгоде вещи.

Иногда кажется, что эпохи не связывает воедино вообще почти ничего, кроме трёх неизменных сфер человеческих интересов: деньги / власть, любовь и искусство. И именно искусствоведение фокусирует своё внимание на том, что является ключевыми плодами существования цивилизации, – на главных антропогенных произведениях, проходящих сквозь века. Деньги и власть – категории сиюминутные, ограниченные пределами жизни, равно как и любовь… если только они не отливаются в прекрасное. Однако то, что такое преобразование возможно и даже довольно часто встречается, тоже придаёт искусству особенное значение.

Границы того, что называется этим словом, – один из ключевых вопросов искусствоведения, и появление неожиданных способностей нейросетей делает его по-новому актуальным. Кстати, насколько верно использование здесь вокабулы “способности”? Пожалуй, она не менее уместна, чем “навыки”. Определённо, о “талантах” в данном случае можно говорить лишь иносказательно, иронично или метафорически. Более того, вряд ли сам процесс создания произведений нейросетями можно называть “творчеством” моделей искусственного интеллекта. И тогда важно пояснить: вопрос, вынесенный в заголовок настоящей книги, связан не с тем, чтобы соотнести ход возникновения произведения в нейронной сети с творчеством. Нас интересует лишь то, может ли результат являться искусством. Сразу поднимает голову следующая теоретическая проблема: может ли искусство возникать в результате не творчества, а какого-то другого процесса? В общем, пока вопросов больше, чем ответов, но вынесенный в название книги определённо оказывается одним из первых, который требуется разрешить, когда мы начинаем обживать наступившее будущее.

Сумма технологии: нейронные сети, ложь и живопись

Честно говоря, от детального обсуждения того, что такое нейронные сети и как они устроены, хотелось бы уклониться. Во-первых, принимая во внимание магистральную тему нашего разговора, это существенно размыло бы целевую аудиторию – не всякий читатель прорвётся через текст, посвящённый одновременно программированию, биологии и культуре. Во-вторых, теоретическая и техническая стороны их устройства обсуждаются в великом множестве источников, а потому не хочется повторяться.

Для дальнейшего понимания настоящей книги достаточно отдавать себе отчёт в том, что нейронная сеть – это термин, пришедший в компьютерные технологии из биологии. Так называется система нейронов, соединённых между собой с помощью синапсов. В свою очередь, нейроны – специализированные, электрически возбудимые клетки нервной системы, предназначенные для приёма, элементарной обработки, хранения и передачи информации далее посредством электрических и химических сигналов. По сути, именно они являются структурно-функциональными единицами нервной системы. Каждый отдельный нейрон работает поразительно просто, и это не вяжется с тем, что мы называем высшей нервной деятельностью. Однако тривиальные операции превращаются в сложные решения за счёт невероятного количества участвующих элементов. Скажем, такое творческое занятие, как чтение, становится возможным в том числе и благодаря нейронной сети, связывающей зону угловой извилины со зрительными областями, а также с несколькими теменными (ответственными за количественное мышление) и затылочно-височными зонами (где происходит распознавание образов)[6].

В центре нашего разговора будут искусственные нейронные сети – математические модели, созданные для имитации определённых аспектов работы человеческого мозга при решении определённого вида задач. Они состоят из большого количества искусственных нейронов, связанных между собой искусственными синапсами. В остальном же всё происходит, как в биологическом прототипе: нейроны обрабатывают поступившую к ним через входные синапсы информацию, выполняют над ней различные функции, такие как распознавание образов, классификация или прогнозирование, а потом через выходные синапсы направляют результат далее. Нейросеть можно представить себе как систему взаимосвязанных ячеек, на каждую из которых возложены определённые вычисления.

Как правило, нейрон имеет множество неравноправных синапсов – среди них есть более и менее предпочтительные[7]. Каждой связи сопоставлен “вес”. Таким образом, “траектория” данных по сети становится вероятностным процессом, словно судьба игрока в казино. Для того чтобы определить, каким из синапсов следует воспользоваться при передаче, генерируется случайное число, и путь выбирается с учётом “желательности” каждой конкретной связи. Пройдя свой неожиданный маршрут от входа до выхода из сети, начальные данные превращаются в конечный результат. Получается, что одну из важнейших ролей в работе модели играют упомянутые веса, сопоставляемые всем синапсам и определяющие важность, а также вклад каждого отдельного нейрона. Но откуда они берутся и от чего зависят? Это самое интересное.

Прежде чем войти во “взрослую жизнь”, новорождённые нейронные сети получают “образование”, и этим они тоже похожи на людей. Ab ovo все связи каждого нейрона равноправны. “Сознание” “цифрового младенца” – чистый лист, у него отсутствуют основания для принятия решений, а потому данные проходят сквозь череду нейронов по воле беспримесного случая… И тут появляется человек новой профессии – тренер нейронных сетей.

На первых порах он оценивает каждый прецедент функционирования “своих подопечных”, и если результат соответствует входным данным и поставленной задаче, то веса всех задействованных для его получения синапсов увеличиваются, а если нет – уменьшаются. Таким образом, модель “изучает” ту предметную область, в которой ей предстоит работать, – получает “профессиональное образование”. В результате она обобщает поступающие данные, находит закономерности, что впоследствии позволит ей делать прогнозы и принимать решения. Аналогичным образом закономерности запечатлеваются и в нашем мышлении, хоть порой мы и не отдаём себе отчёта, когда руководствуемся ими.

Такова отличительная черта систем так называемого “глубокого обучения”: подобные нейронные сети можно именно “натренировать”, “привить” им определённые представления о мире, которые лягут в основу их последующей работы. При этом в них нет фиксированного алгоритма решения задач конкретного типа – они тренируются под задачи.

Если описанный принцип остался не вполне понятным, то имеет смысл обратиться к хрестоматийному примеру – “самообучающейся машине из спичечных коробков”, предложенной популяризатором науки Мартином Гарднером в культовой некогда книге “Математические досуги”[8]. Пример искусственного интеллекта, собранного без кремниевых процессоров – из картонных коробочек и бисера, – может послужить занятной иллюстрацией и сделать принцип работы довольно прозрачным, но скорее всего, именно тут зазвучат голоса скептиков: “Вы серьёзно? Так просто? Хотите сказать, что эта модель может хоть как-то воспроизводить работу мозга?” Безусловно, совершенно серьёзно. Всё дело в масштабе, в количестве нейронов, синапсов, параметров и объёме обучения. Чтобы играть в крестики-нолики, достаточно трёхсот спичечных коробков, выполняющих функции нервных клеток, и двадцати тренировочных партий в качестве базового образования. Гарднер, впрочем, предлагает оптимизированную модель для упрощённой игры, позволяющую сократить количество коробков до двадцати четырёх. Разумеется, чтобы создавать тексты, картины, музыку или видео, нужно что-то посложнее, но принцип не меняется.

Скажем, в среднестатистическом человеческом мозге восемьдесят шесть миллиардов нейронов. В остальном всё то же самое: по ходу взросления и обучения (в том числе даже не умышленного и организованного, а совершенно спонтанного, связанного с восприятием всего вокруг) в теменной коре формируется информационно-речевая модель реальности. Слово “модель” в данном случае использовано не менее правомерно, чем при обсуждении нейросетей, поскольку наши представления о мире не тождественны миру, они – лишь его отпечаток.

Не стоит поддаваться заблуждению, будто у нас в голове – реальность. Каждый человек несёт в себе лишь модель действительности. Для описания такого положения дел Стивен Хокинг предложил идею “моделезависимого реализма”[9]. Это словосочетание звучит будто название художественного направления, но обозначает куда более универсальный принцип, поскольку включает искусство (как реалистическое, так и нет) в виде частного случая. Именно наша нейронная сеть – отпечатавшаяся в теменной коре модель действительности – используется нами как в творчестве, так и при принятии любых решений. Если ответ на какой-то вопрос удаётся найти едва ли не мгновенно, даже не задумываясь, это значит, что траектория от входа к выходу оказалась чрезвычайно удачной, чуть ли не идеальной. Заметим, что такую ситуацию почти никогда не описывают приведёнными словами – чаще её связывают с интуицией.

Когда мы сталкиваемся со сложным вопросом, требующим долгих раздумий, одни и те же данные приходится гонять от входа к выходу многократно, корректируя после каждой итерации. Иногда лучше даже отложить решение, поскольку постоянный рост синапсов[10] и непрекращающееся обучение могут со временем привести к качественно новому результату. Именно потому, когда вы оказываетесь в затруднительном положении, имеет смысл пойти погулять: свежий воздух и умеренная физическая активность способствуют росту новых связей между нейронами.

Стоит отметить, что одним из самых ресурсозатратных мыслительных процессов является… порождение лжи[11]. Заметим, что здесь и далее речь идёт о серьёзном обмане вроде выдумывания более или менее развитых и правдоподобных альтернативных историй, а не о милом утвердительном ответе на вопрос “Было ли тебе вкусно?” вне зависимости от навыков хозяйки. Этику соотнесения вежливости и вранья мы в данном случае не обсуждаем. Однако факт остаётся фактом: когда человек говорит чистую правду, мозг тратит значительно меньше энергии, чем когда он лжёт. Здесь сразу следует поставить вопрос о том, существует ли принципиальная – не этическая, а физиологическая – разница между обманом и творческим вымыслом? По всей видимости, её почти нет. Действительно, когда мы врём, заметная активность возникает в префронтальной коре (поясной коре, лобных долях), связанной, помимо прочего, с непосредственным поведением. Творчество же, в зависимости от модуса, может активизировать самые разные участки мозга, безусловно, включая и префронтальные.

Какие выводы напрашиваются? Во-первых, Маяковский ничуть не преувеличивал, говоря, что “поэзия – та же добыча радия”. Сочинять стихи тяжело, это требует энергозатрат, превосходящих среднестатистические. Во-вторых, бытует мнение, будто всякий автор пишет (тексты, картины, музыку) о себе. Судя по всему, в этом есть “экономический” резон – так существенно “выгоднее”, поскольку можно меньше выдумывать. Тем не менее подобным образом поступают не все. И тут мы подходим к третьему пункту: ложь – настолько ресурсоёмкий процесс, что если она практикуется достаточно часто, то организм предпочитает к этому адаптироваться[12], чтобы снизить свои затраты. Используя уже привычную нам терминологию: нейронная сеть подстраивает приоритеты синапсов под враньё… и творчество. Они могут стать более естественными, а то и неизбежными модусами. Так возникают патологические лгуны и прирождённые художники. Однако… если создавать произведения так “накладно”, не будет ли разумным использовать технические средства, чтобы сэкономить ресурсы?

Пришло время сделать некоторое отступление. Автору этих строк доводилось нередко писать и рассуждать о самых разных вопросах искусствознания и видах искусства. Преимущественно – о литературе и кино. Существенно меньше – о музыке. И уж совсем мало – о живописи. Нейросети тоже в разной степени освоили создание произведений в каждом из этих видов, но тем не менее далее на страницах настоящей книги мы будем говорить главным образом об изобразительном искусстве и рисующих моделях. Тому есть несколько причин, обосновывающих наше решение с разных сторон. Во-первых, произведение живописи – запечатлённый момент. Готхольд Лессинг, Дени Дидро и другие мыслители высказывали одну и ту же мысль: картина ограничена единственным мгновением, она постоянна во времени и требует активного восприятия. Она говорит с нами на своём языке образов, а не на нашем языке слов, потому мы перед ней лишены форы и в каком-то смысле равны.

То, что могут современные системы искусственного интеллекта в сфере литературы, заслуживает отдельного обсуждения. Профессионалы западного книжного рынка неоднократно подтверждали, что при создании заметной части новых книг (кто-то говорит о двадцатой доле, кто-то – о четверти) уже давно используются нейронные сети не только их авторов. Так как речь об этом идёт уже лет десять, в виду имеется не столько ChatGPT (де-факто лучший инструмент в наше время), сколько его предшественники и альтернативы, о которых мало кто знал вне индустрии. Подчеркнём: суть не в том, что машины целиком пишут книги “вместо” человека от начала до конца, однако порой на звание соавтора претендовать могут вполне (выше мы обсуждали вклад чата в первый абзац). Сразу оговорим: это не хорошо и не плохо – таково естественное развитие книжного дела и в конечном итоге ремесла писателя, нравится это кому-то или нет.

Сам факт существования инструментов искусственного интеллекта, применяемых в литературе, мог бы и дальше никого особенно не волновать, оставаясь обсуждаемым лишь в среде профессионалов, если бы компания OpenAI не сделала ChatGPT достоянием широкой общественности. Ключевую роль в этом сыграл пользовательский интерфейс чата, понятный каждому человеку, умеющему обращаться с компьютером или смартфоном. Примерно в то же время на авансцену вышли и рисующие нейронные сети, которые по текстовым запросам (промптам, как их принято называть) стали создавать изображения. Тогда искусственный интеллект заговорил с людьми на таинственном, а значит, немного пугающем или хотя бы настораживающем языке визуальных образов.

Если читатель этих строк до сих пор не пробовал нарисовать что-либо в одной из нейросетей… Да, сам глагол “рисовать” может показаться спорным, но, чтобы не утонуть в кавычках и экивоках, давайте придерживаться именно такого вокабуляра. Итак, если читатель никогда не пробовал, автор настоятельно рекомендует сделать это прямо сейчас. Поскольку вашему покорному слуге неизвестно, какой на дворе год и какие средства доступны вам в данный момент, приводить ссылки вряд ли имеет смысл. Заметим лишь, что подавляющее большинство иллюстраций в настоящей книге было сгенерировано с помощью нейросети Midjourney. В отдельных случаях использовались Leonardo, Stable Diffusion разных версий, Blue Willow, Dall-E, Playground AI, Invoke AI и другие.

Более того, даже тексты запросов, породивших иллюстрации, приводить почти нет смысла – мы будем делать это лишь в тех случаях, когда важно пояснить принципы общения с моделью или особенности синтаксиса промптов. Кстати, общаться будем на английском языке. Причина тому банальна: лучшие сети тренировались именно на нём, а значит, результаты окажутся качественнее и точнее. Однако никакой проблемы для тех, кто не владеет языком, здесь нет: запросы можно переводить с помощью онлайн-переводчиков, в том числе и тех, которые тоже используют нейросети, вроде DeepL Translator[13].

Сопровождать иллюстрации промптами имело бы смысл, если бы они позволяли воспроизводить результаты, но это не так. Во-первых, большинство моделей на каждый запрос генерирует несколько вариантов произведений на выбор. Как правило, “выдача” состоит из четырёх изображений, и далеко не всегда мы будем приводить их все. А во-вторых, ни одна нейросеть никогда не повторяется. В случае очень чёткого и детерминированного задания можно представить себе ситуацию, в которой рисунки окажутся однотипными, а их сходства – очевидными, но всё же каждый останется уникальным. Вот пример (см. илл. 2) множества картинок, полученных по почти идентичным запросам. Первые четыре – это цельная выдача нейросети Midjourney на промпт “14th century villain who won the game”, то есть “злодей XIV века, который выиграл”. Для запуска генерации приведённые слова должны предваряться командой “/imagine”. Вторые четыре изображения получены по запросу “15th century villain who won the game”, потом – “16th century villain who won the game” и так далее до XXV столетия.

Заметим, что получить все эти картинки разом можно было по мультизапросу “{14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25}th century villain who won the game”, но это – для понимания синтаксиса промптов, не более. Ещё несколько практических замечаний: век лучше указывать арабскими цифрами, не римскими. Также рекомендуется избегать излишних артиклей, особенно “a”, поскольку мера неопределённости для нейросети значения не имеет.

Вглядимся в лица злодеев. Безусловно, все они разные – нет двух одинаковых как внутри отдельной выдачи, так и в целом, если рассмотреть каждое из сорока восьми изображений. В то же время очевидны некие общие качества: шрамы, возраст (мы вовсе не просили пожилого человека, но юного нам модель не предложила), спокойное или ироничное выражение лица (вплоть до клоуна или безумца), признаки власти или игры… Более того, наш незатейливый запрос позволил выявить стереотипные представления нейросети о некоем “литературном зле” в разные исторические периоды. Достаточно проследить хотя бы за одной деталью – головными уборами: монаршая корона XIV века обретает черты шутовского колпака в XV. Далее – шляпа вельможи, которая в XVII столетии уже невообразима без полей. Тогда же появляются и парики, без которых в XVIII веке злодей непредставим. XIX – время цилиндров, которые в XX постепенно уходят, хотя один вариант и дотягивает до XXI. “Современные” мерзавцы имеют признаки технократии, граничащей со стимпанком. Головные уборы – будь то цилиндр или корона – явно футуристические. Начиная с XXII века нейросети трактуют эпоху как условное “будущее” и злодеи утрачивают определённые человеческие черты (за исключением одного в XXIV столетии), походя больше на героев фантастических фильмов и компьютерных игр, что, в свою очередь, ничуть не удивительно, поскольку в ходе образования сеть наверняка получала и их портреты. Недаром великий Марк Ротко говорил: “Картина не изображает некий опыт, но является опытом”. Теми же причинами объясняются и рекуррентные черты вампира (главным образом уши), Джокера и кого-то вроде Шиннока из саги “Mortal Kombat”.

Абстрагируясь от черт, сфокусируем внимание на том, сколь полученные результаты, в сущности, разнообразны. Как же так выходит, что нейросети не повторяются? Это связано с самим принципом генерации картин с помощью так называемых диффузионных моделей. Изображения возникают из начальных условий, представляющих собой “белый шум”. Грубо говоря, на первом шаге каждая точка имеет случайный цвет. Функционирование нейросети заключается в том, что она последовательно реализует “цветовую диффузию” или удаление шума для того, чтобы “восстановить” из данного изображения ту картину, которая соответствовала бы текстовому запросу. Некоторые модели даже показывают ход этого процесса – результат последовательно проступает из мутного небытия. В каком-то смысле происходит фантастическая реставрация – восстановление того, чего не было. Однако именно здесь и кроется ответ: все итоговые изображения разные, потому что они получены из разных начальных условий. А вероятность того, что генерируемое случайным образом начальное состояние картины повторится, несколько меньше количества частиц во Вселенной[14].

Наконец, третья причина того, почему приводить запросы бессмысленно, состоит в следующем: используемые модели находятся в непрерывном развитии. Они постоянно обучаются, корректируются, оптимизируются. В ходе работы над настоящей книгой у автора этих строк случилась длительная поездка, и он не пользовался Midjourney на протяжении трёх недель. При этом уже было заготовлено некоторое количество промптов, ждавших своего часа. По возвращении выяснилось, что модель изменилась невероятно, она начала реагировать совершенно иначе, а потому продолжать развитие старых идей едва ли было возможно. Но это, в свою очередь, стало лишь поводом придумать новые.

Итак, история нейросетей-живописцев берёт своё начало много лет назад, но именно 2022 год оказался переломным и привёл к обсуждаемому (технологическому? художественному?) прорыву. Почему? Потому что сошлись два обстоятельства. Во-первых, уже давно и бурно проходили работы по распознаванию и индексированию изображений. Практически все картинки в интернете подверглись многократному анализу, позволившему определить, что именно на них изображено. Алгоритмы распознавания начали показывать невероятные результаты, эффективно и подробно характеризуя графические файлы, что было важно, в частности, для поисковых систем. Таким образом, задача преобразования картинки в текстовое описание оказалась решаемой великолепно. Сейчас распространённым учебным упражнением для начинающих программистов в сфере машинного обучения является создание программы для классификации видов цветков, запечатлённых на фото. Подчёркиваем: не родов, а видов! То есть нужно не отличить ромашки от роз и ирисов, а разделить ирисы на виргинские (iris virginica), разноцветные (iris versicolor) и щетинистые (iris setosa).

Так или иначе, возникла огромная база соответствия изображений их описаниям. Безусловно, напрашивалась мысль о том, что это поможет решить обратную задачу – получать картинку по словесному запросу. Довольно скоро последовала идея, что изображение следует не искать среди существующих, а генерировать.

И второе обстоятельсто: незадолго до того – в 2017 году – исследователями из компании “Google” (которая чуть раньше выпустила модель DeepDream, способную создавать нашумевшие, но абсолютно не антропогенные, а нарочито психоделические картинки) были предложены “генеративные трансформерные модели”, которые в диффузном поколении нейросетей позволили получать результаты иного качества[15].

Названные два обстоятельства сошлись, будто детали пазла. Чуть выше мы говорили про количество нейронов в мозге. Так вот, упомянутая база изображений, лежащая в основе обучения лучших рисующих нейросетей, на момент создания настоящей книги составляет 2,3 миллиарда картинок, в описаниях которых выделено 3,5 миллиарда понятий (параметров)[16]. И это уже серьёзно.

Может сложиться превратное впечатление, будто книга, которую вы держите в руках, посвящена вопросам прогресса. И да, и нет. Технические новации и революционные алгоритмические модели, безусловно, возникли, а значит, соответствующее развитие computer science произошло, но всё-таки появление теоретической модели генеративных трансформеров вряд ли сопоставимо с изобретением колеса или открытием того, что Земля не плоская. С точки зрения информационных технологий разрыва шаблона или ницшеанской “связи времён” не случилось – имел место очередной и, в общем, закономерный шаг вперёд. Удивительным образом для искусства, культуры и, быть может, философии произошедшее значит гораздо больше, чем для техники. Но как это охарактеризовать? Является ли случившееся “художественным прогрессом”?

Андрей Тарковский, равно как и многие другие крупные фигуранты истории прекрасного, был убеждён, что прогресс в искусстве невозможен, потому что тогда можно было бы, например, заключить, будто Томас Манн “лучше” Шекспира. Сьюзен Зонтаг, в свою очередь, заметила, что у культуры в целом не бывает прогресса, равно как регресса и даже кризиса. Дескать, любые её модусы, кажущиеся нам выдающимися или чрезвычайными, на самом деле – штатный режим её бытования. В этом отношении вопрос о том, как трактовать происходящее сейчас, как смириться и принять то, что нейронные сети создают произведения, по крайней мере претендующие на звание искусства, внезапно делает всю computer science частью культуры.

На страницу:
2 из 3