
Полная версия
Почему оно думает? Путешествие внутрь искусственного разума
Никто из авторов не написал: «Мы создали архитектуру, которая изменит всё». Они решали конкретную задачу. Они решили её хорошо.
Потом произошло нечто, чего никто не планировал.
OpenAI, молодая лаборатория искусственного интеллекта, взяла архитектуру трансформера и применила её не к переводу, а к генерации текста. Задача была проще некуда: предсказать следующее слово. Модель читает начало текста и угадывает, что идёт дальше. GPT – Generative Pre-trained Transformer – была первой в этой линии. Небольшая по современным меркам, обученная на скромном корпусе текстов. Она генерировала связные абзацы, иногда забавные, чаще бессмысленные. Игрушка для демонстраций.
GPT-2 в 2019 году была больше – полтора миллиарда параметров. Она генерировала тексты убедительнее. Настолько убедительнее, что OpenAI сначала отказалась публиковать полную версию модели, опасаясь злоупотреблений: фейковые новости, автоматизированная пропаганда, массовая генерация дезинформации. Это была первая точка, где исследователи почувствовали: что-то изменилось. Не в технике – в результате. Тексты выглядели так, будто их написал человек. Не всегда умный человек, не всегда внимательный – но человек.
Решение не публиковать модель вызвало споры. Одни хвалили OpenAI за ответственность. Другие критиковали за секретность, нехарактерную для научного сообщества. Сама дискуссия была симптомом: впервые языковая модель воспринималась как нечто потенциально опасное. Не потому что она умела что-то плохое, а потому что она умела слишком хорошо то, для чего была создана.
И всё же GPT-2 оставалась генератором текста. Хорошим генератором, но генератором. Она не решала задач. Она не отвечала на вопросы так, чтобы ответам можно было доверять. Она продолжала начатое – иногда блестяще, чаще посредственно. Исследователи видели в ней улучшенную версию предыдущих моделей, не качественно новую сущность.
GPT-3 изменила всё.
Сто семьдесят пять миллиардов параметров. В сто с лишним раз больше, чем GPT-2. Та же архитектура. Та же задача. Тот же принцип обучения. Только масштаб.
Исследователи из OpenAI протестировали модель на стандартных задачах – и получили результаты, которых не ожидали. Модель решала арифметические примеры. Переводила между языками. Отвечала на вопросы, требующие рассуждения. Писала код. Делала всё это не идеально, но статистически значимо лучше случайного угадывания. И – что важнее – делала это без специального обучения на каждую задачу. Достаточно было показать несколько примеров в запросе.
Том Браун, первый автор статьи о GPT-3, позже вспоминал тот период как время непрерывных открытий. Каждый день кто-то из команды находил новую способность. «Смотрите, она может делать X». «А вы видели, что она делает Y?» Модель удивляла своих создателей. Это странное ощущение для инженера – удивляться тому, что ты построил.
Статья о GPT-3 вышла в мае 2020 года. Она называлась «Language Models are Few-Shot Learners» – «Языковые модели – это few-shot ученики». Название фиксировало главное открытие: модель умеет учиться на нескольких примерах. Но за этим скромным названием скрывался сдвиг парадигмы. Исследователи больше не говорили о генерации текста. Они говорили о способностях.
Реакция научного сообщества была смешанной. Одни восхищались – и их можно понять: результаты были впечатляющими. Другие скептически указывали на ошибки, на провалы, на случаи, когда модель несла очевидную чушь. Скептики были правы в частностях: модель действительно ошибалась, иногда грубо. Но они упускали общую картину: модель делала то, что вообще не должна была уметь делать.
Третьи пытались понять, что происходит – и не могли. Они перечитывали статью о GPT-3, изучали архитектуру, анализировали данные. Всё было знакомо. Трансформер – известная архитектура. Предсказание слов – известная задача. Обучение на текстах из интернета – известный подход. Ничего принципиально нового. И тем не менее – результат принципиально новый. Откуда?
Дарио Амодеи, тогда вице-президент OpenAI по исследованиям, формулировал это так: мы построили систему, которая ведёт себя иначе, чем мы ожидали. Не хуже – иначе. Мы ожидали хорошего генератора текста. Мы получили что-то, что выглядит как универсальный решатель задач. Слово «выглядит» здесь важно: Амодеи был осторожен в формулировках. Он не утверждал, что модель «понимает» или «мыслит». Он констатировал наблюдаемое поведение. Но даже с оговорками – это был радикальный результат.
Момент осознания – не одномоментное событие. Это процесс, растянутый во времени. Сначала – удивление перед отдельными примерами. Потом – накопление примеров до критической массы. Потом – попытки объяснить. Потом – признание, что объяснения не работают. И наконец – принятие факта как факта, без полного понимания механизма.
К 2022 году, когда появился ChatGPT – версия GPT-3.5, доступная широкой публике, – факт был принят большинством. Система умеет то, чему её не учили. Она демонстрирует способности, которые не следуют из её задачи. Она – нечто большее, чем сумма своих частей.
Но принять факт – не значит понять его.
Исследователи предлагали объяснения. Одни говорили о компрессии: модель, предсказывая слова, вынуждена сжимать информацию о мире, и это сжатие порождает структуры, похожие на понимание. Идея красивая – в ней есть отзвук теории информации, колмогоровской сложности, принципа минимальной длины описания. Чтобы хорошо предсказывать текст, нужно понимать, о чём он. Сжатие ведёт к пониманию.
Другие говорили о внутренних репрезентациях: модель строит карту концепций, и эта карта позволяет ей оперировать концепциями, а не только словами. Слово «король» – не просто набор токенов, а точка в пространстве, связанная с «властью», «короной», «троном». Модель, научившись располагать слова в этом пространстве, научилась и оперировать тем, что они обозначают.
Третьи говорили о мета-обучении: модель научилась учиться, и это умение универсальнее любой конкретной задачи. Видя примеры перевода, она понимает, что нужно переводить. Видя примеры кода, понимает, что нужно программировать. Она выучила не отдельные навыки, а способ приобретать навыки на лету.
Каждое объяснение схватывало что-то. Ни одно не охватывало всего. И главное – ни одно не было предсказанием. Все они появились после того, как феномен был обнаружен. Они описывали, не предсказывали. Объясняли задним числом, не выводили заранее. Это как объяснять, почему именно этот номер выиграл в лотерею, после того как розыгрыш состоялся. Объяснение можно придумать – но оно не докажет, что вы понимаете механизм.
Это важное различие. Наука гордится предсказательной силой. Теория хороша, если она предсказывает то, что ещё не наблюдалось. Эйнштейн предсказал отклонение света вблизи Солнца – и наблюдения подтвердили. Дирак предсказал позитрон – и его нашли. Хорошая теория говорит: вот что вы увидите, если посмотрите туда-то. А потом вы смотрите – и видите именно это.
Объяснение, придуманное после факта, менее убедительно. Оно могло быть подогнано под результат. Задним числом всегда можно рассказать историю, почему случилось то, что случилось. Это не значит, что вы понимаете механизм. Это значит, что вы умеете сочинять нарративы.
С языковыми моделями мы в положении, где все объяснения – постфактум. Мы смотрим на феномен и придумываем, почему он мог возникнуть. Мы не выводим феномен из принципов. Мы не можем сказать: вот теория, из неё следует, что при таком-то масштабе модель научится программировать. Мы можем только сказать: модель научилась программировать, вот несколько возможных причин.
Некоторые учёные честно это признают. Ян Лекун, один из пионеров глубокого обучения, отмечал: мы не понимаем, почему большие модели работают так хорошо. У нас есть эмпирика, у нас есть интуиции, у нас нет теории. Это не катастрофа – наука часто работает от наблюдений к теории, а не наоборот. Но это факт, который стоит признать.
Другие учёные менее скромны. Они говорят об «искре интеллекта», о «первых проблесках AGI», об «эмерджентном разуме». Эти формулировки привлекают внимание прессы, но они не объясняют ничего. Назвать нечто «искрой интеллекта» – не значит понять, что это такое. Это красивая метафора, не теория.
Между скромностью и энтузиазмом лежит территория честного незнания. Мы построили систему. Система делает удивительные вещи. Мы не вполне понимаем, почему. Мы продолжаем исследовать.
История с GPT-3 повторилась с GPT-4. Новая модель – новые способности. То, что GPT-3 делала посредственно, GPT-4 делает хорошо. То, что GPT-3 не могла вообще, GPT-4 начинает мочь. Закономерность подтверждается: масштаб порождает качество. Понимание не приходит: почему именно этот масштаб, почему именно эти способности, почему именно в такой последовательности.
GPT-4 сдаёт экзамены. Юридический экзамен на адвоката – в верхних десяти процентах. Медицинский экзамен – на уровне, достаточном для лицензии. Олимпиады по программированию – не на уровне победителей, но на уровне уверенных участников. Это не вызубренные ответы – модель решает задачи, которых не видела раньше. Она применяет знания к новым ситуациям.
Исследователи из Microsoft опубликовали в 2023 году отчёт о GPT-4 под провокационным названием «Sparks of Artificial General Intelligence» – «Искры общего искусственного интеллекта». Отчёт на сотни страниц документировал способности модели: математика, программирование, понимание текста, работа с изображениями, рассуждения о гипотетических ситуациях, понимание юмора, способность к планированию. Авторы были осторожны в выводах, множество раз оговариваясь, что не утверждают наличия «настоящего» интеллекта. Но заголовок говорил сам за себя. Что-то происходит. Что-то, что выходит за рамки «генерации текста». Что-то, что заставляет исследователей использовать слова вроде «интеллект», пусть и с оговорками.
Сейчас, оглядываясь на эту историю, можно увидеть траекторию. От инструмента перевода – к генератору текста – к системе, демонстрирующей признаки мышления. Каждый шаг выглядит логичным в ретроспективе. Ни один не был очевиден заранее. Исследователи двигались в тумане, освещая дорогу на шаг вперёд. Они не видели, куда придут. Они видели только следующий эксперимент.
Это не упрёк исследователям. Так работает наука на переднем крае. Ты не знаешь, что найдёшь. Ты пробуешь, наблюдаешь, корректируешь курс. Иногда – чаще всего – находишь небольшие улучшения. Иногда – редко – находишь нечто неожиданное. С языковыми моделями произошло второе. И масштаб неожиданности оказался таким, что он до сих пор не осмыслен полностью.
Исследователи строили систему для предсказания слов. Они получили систему, которая, кажется, понимает. Они не планировали этого. Они не проектировали этого. Они обнаружили это – после того как система была построена и запущена.
Результат не следует из замысла. Это, возможно, главный урок истории языковых моделей. Мы умеем строить. Мы не всегда понимаем, что строим. И это положение дел – не временное затруднение, которое исчезнет с накоплением знаний. Это, возможно, фундаментальная черта того, с чем мы имеем дело.
Часть первая завершена. Парадокс зафиксирован: машина, обученная предсказывать слова, ведёт себя так, будто понимает. Она решает задачи, которым её не учили. Масштаб порождает качество – но механизм этого превращения остаётся загадкой.
Часть вторая расскажет историю создания: от цепей Маркова до трансформера, от первых нейросетей до RLHF. Но читая её, стоит помнить: знать, как устроена машина, – не значит понимать, почему она работает так, как работает. Механика не объясняет результат. Это станет очевидно к концу второй части – и станет главной темой третьей.
ЧАСТЬ II. КАК МЫ ЭТО ПОСТРОИЛИ
Первая часть зафиксировала парадокс: машина, обученная предсказывать слова, ведёт себя так, будто понимает. Теперь – история создания. Не учебник по нейросетям, а путь через ошибки, случайности и решения, которые казались техническими, а оказались судьбоносными. К концу этой части читатель будет знать, как устроена машина. И почувствует: это знание ничего не объясняет.
Глава 4. Краткая история предсказания
Каждая революция в технологиях предсказания текста была ответом на провал предыдущей. Люди решали конкретные проблемы – и случайно строили дорогу к тому, чего не предвидели. Это история не триумфа, а последовательных костылей, последний из которых оказался крыльями.
4.1. От цепей Маркова до «Attention Is All You Need»
Идея предсказывать следующее слово по предыдущим стара, как статистика. В начале двадцатого века русский математик Андрей Марков анализировал текст «Евгения Онегина», подсчитывая, как часто гласные сменяются согласными. Он не думал о машинах, которые будут писать текст, – он изучал вероятности. Но его метод лёг в основу всего, что произошло потом.
Цепи Маркова работают просто: смотри на текущее состояние, предсказывай следующее. Если после слова «я» в корпусе текстов чаще всего идёт «хочу», модель выберет «хочу». Элегантно. Математически чисто. И совершенно бесполезно для связного текста.
Проблема была фундаментальной: цепи Маркова не помнят ничего, кроме непосредственно предыдущего слова. Они не знают, что разговор идёт о погоде, что предложение началось с вопроса, что три абзаца назад упоминался конкретный человек. Каждый шаг – заново. Контекст стирается мгновенно. Текст, порождённый чистой марковской моделью, напоминает бред: отдельные переходы между словами правдоподобны, но целое лишено смысла. Предложения распадаются на грамматически связанные, но семантически абсурдные фрагменты.
Инженеры пятидесятых и шестидесятых годов двадцатого века понимали ограничение, но не имели инструментов его преодолеть. Компьютеры той эпохи с трудом справлялись даже с простейшими статистическими моделями. Амбиции машинного перевода, казавшиеся близкими в эйфории первых успехов искусственного интеллекта, разбились о реальность языка. Меморандум ALPAC 1966 года констатировал провал: машинный перевод оказался далёк от практического применения. Финансирование сократили. Энтузиазм угас. Но идея предсказания осталась.
Первый костыль назывался n-граммами. Вместо одного предыдущего слова – смотреть на два, три, пять. Если модель видит «я хочу», она предсказывает лучше, чем если видит только «хочу». Контекст расширился – с одного слова до нескольких. Логично. Работает. До определённого предела.
N-граммы упираются в комбинаторный взрыв. В русском языке десятки тысяч употребительных слов. Количество возможных пар – двадцать миллиардов. Троек – три квадриллиона. Пятисловий – число, которое трудно даже произнести. Никакой корпус текстов не содержит всех возможных сочетаний. Большинство пятисловий модель никогда не видела. Она не может предсказать то, чего не встречала. А язык бесконечно изобретателен – люди постоянно говорят то, чего никто никогда не говорил в точности так. Каждое новое предложение, которое вы читаете сейчас, с высокой вероятностью уникально в истории человечества.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.









