Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Полная версия

Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

текст

Дана Матрикс

Жанр: книги о компьютерах

Язык: Русский

Год издания: 2026

Добавлена: 15.05.26

О книге

Читать онлайн

Настройки чтения

Размер шрифта

Высота строк

Поля

<1 2 3 4 5...7 >

На страницу:

Перейти

3 из 7

AlphaGo выиграла. Ли Седоль ошибался? Нет, он играл сильно. Но программа играла сильнее. Мир ахнул, но решил: «Первая партия, разведка. Дальше будет легче».

Партия 2: Божественный ход (37-й ход)

И вот он, тот самый момент. 37-й ход чёрными. AlphaGo поставила камень в точку, которая считалась не просто плохой, а немыслимой для профессионалов. Комментаторы в студии сказали: «Это ошибка программы». Они даже попытались найти объяснение: «Может, там баг?».

Но по мере развития партии стало понятно: это был не баг. Это был гений. Этот камень оказался ключевым. Он создавал невидимые глазу человека угрозы на 50 ходов вперёд. Комментаторы замолчали, потом начали говорить: «Мы никогда не видели такого хода за 1000 лет игры».

Ли Седоль проиграл вторую партию. Счёт 0:2.

Партия 3: Унижение

Третья партия. Ли Седоль играет изо всех сил, но AlphaGo снова побеждает. Счёт 0:3. Матч проигран досрочно. В зале тишина. Ли Седоль выглядит потерянным. Он извиняется перед зрителями. Он говорит: «Я чувствую себя бессильным».

Партия 4: Слёзы и триумф человека

И тут происходит то, чего не ждал никто. Ли Седоль собирается. Он делает ход, который потом назовут «Ход Бога» (или «Ход Ли Седоля»). На 78-м ходу четвёртой партии он ставит камень в сложнейшую позицию.

AlphaGo сбивается. Программа, которая никогда не ошибается, начинает делать странные ходы. Алгоритм подсчёта вероятности победы резко падает. Впервые за матч AlphaGo проигрывает.

Ли Седоль выигрывает. Он плачет. Зал аплодирует стоя. Комментаторы рыдают в эфире. Человек победил машину.

Партия 5: Финал

Пятая партия была напряжённой, но AlphaGo восстановилась и выиграла. Итог матча: 4:1 в пользу машины.

Инсайт: Что случилось с AlphaGo в четвёртой партии?

Почему машина, которая обыграла чемпиона, вдруг проиграла? Ответ прост и сложен одновременно.

Ход Ли Седоля был настолько нестандартным, настолько человечным, что вывел AlphaGo из зоны комфорта. Программа не видела такого хода в миллионах партий, которые она сыграла сама с собой. Она просто не знала, как на него реагировать. Это был творческий акт, который сломал алгоритм.

Демис Хассабис потом скажет: «Это был гениальный ход. Ли Седоль нашёл единственную слабость в нашей системе. Он играл как человек, а не как машина».

Божественный ход (37-й) – взгляд изнутри

А что насчёт того самого 37-го хода? Почему его назвали божественным?

Профессиональные игроки Го объясняют это так: человек мыслит «паттернами». Мы видим привычные формы, стандартные построения. Мы знаем, что «так не ходят», потому что так не учили.

AlphaGo не знала слова «нельзя». Она просто посчитала вероятности. И вероятность победы при этом ходе оказалась выше, чем при «правильных» ходах. Она нашла решение, которое лежало за пределами человеческого опыта.

Это был момент, когда машина показала человеку: «Ваша мудрость, накопленная веками, – это лишь частный случай. Есть другие миры, о которых вы даже не догадываетесь».

Наследие: После матча

Что стало с героями?

AlphaGo больше никогда не играла с людьми. DeepMind объявила о «выходе на пенсию» программы в 2017 году. Но перед этим она сыграла с собой 50 партий, которые были опубликованы как «шедевры». Сегодня любой игрок может изучать эти партии, как шахматисты изучают партии Каспарова. AlphaGo изменила игру Го навсегда. Появились новые дебюты, новые стратегии. Люди стали играть лучше, глядя на машину.

Ли Седоль ушёл из профессионального спорта в 2019 году. Он сказал: «С появлением ИИ понял, что я больше не на вершине. Есть существо, которое невозможно победить». Но в 2023 году он объявил о возвращении, чтобы сыграть с… другими людьми. С машинами он больше никогда не играл. В интервью он говорит, что гордится той одной победой, потому что это была победа человеческого духа.

Человечество получило важнейший урок. Мы поняли, что интуиция – это не магия. Это тоже результат обработки данных, просто очень быстрой и неосознаваемой. И что машины могут создавать новое, то, чего не было в обучающей выборке.

Твой ход: Четыре урока от Ли Седоля и AlphaGo

– Не бойся выходить за рамки. 37-й ход AlphaGo был невозможен с точки зрения традиции. Но он сработал. В твоей работе, творчестве, жизни – ищи «невозможные ходы».

– Цени человеческое. Ход Ли Седоля в четвёртой партии был гениален именно потому, что был человеческим. Нестандартным, интуитивным, отчаянным. Машины учатся на данных. Люди умеют делать то, чему их не учили.

– Учись у машин. Сегодня профессиональные игроки в Го изучают партии AlphaGo. Ты тоже можешь смотреть, как ИИ пишет код, рисует или пишет тексты, и находить там новые приёмы.

– Принимай поражение с достоинством. Ли Седоль проиграл, но не сломался. Он выиграл одну партию, и этого хватило, чтобы войти в историю. Иногда одна победа важнее десяти титулов.

P.S.

Когда Ли Седоля спросили, что он чувствовал после 37-го хода во второй партии, он ответил:

«Сначала я подумал, что это ошибка. Потом я подумал, что надо покурить. А потом я понял, что смотрю на доску и не понимаю, что происходит. Я играл в Го 30 лет, но никогда не видел такой красоты».

Это и есть момент встречи человека и сверхинтеллекта – когда ты перестаёшь бояться и начинаешь восхищаться.

Глава 8. WaveNet: Как Google научил машину говорить с человеческими интонациями (Синтез речи)

Крючок: Звонок от мамы

Представь, что тебе звонит мама. Ты снимаешь трубку, слышишь родной голос, интонации, дыхание, может быть, лёгкую хрипотцу. Она говорит: «Привет, сынок, как дела? Ты поел?» Ты отвечаешь, расслабляешься, потому что это свой, родной человек.

А потом выясняется, что это был не человек. Это был робот. Он сгенерировал голос твоей мамы в реальном времени, сымитировал её манеру говорить, её паузы, её дыхание. И ты купился.

Звучит как сценарий фильма ужасов? Возможно. Но именно к этому миру нас привела технология, которая называется WaveNet.

А начиналось всё с простой задачи: сделать так, чтобы роботы перестали звучать как роботы.

Герои: Британские учёные, которым надоел металлический голос

В 2016 году в Лондоне, в офисе DeepMind (той самой компании, которая обыграла Ли Седоля в Го), сидела команда исследователей. Они занимались разными вещами: играми, логикой, планированием. Но была одна проблема, которая раздражала всех: синтез речи.

В то время все голосовые помощники – Siri, Google Now, Алиса (в будущем) – звучали… как роботы. Да, они были понятны. Да, они могли прочитать текст. Но это был мёртвый звук. Он резал слух.

Почему? Потому что все существующие системы синтеза речи работали по одному из двух принципов:

– Компиляция (Concatenative synthesis). Берётся огромная библиотека записей реального диктора, режется на кусочки (фонемы, слоги), а потом эти кусочки склеиваются как конструктор. Звучит дёргано, потому что интонации на стыках не совпадают.

– Параметрический синтез (Parametric synthesis). Компьютер генерирует звук по математическим формулам: частота, амплитуда, длительность. Это звучит как «говорящий калькулятор» – плоско и неестественно.

Команда DeepMind задала вопрос: «А что, если не склеивать и не считать по формулам? Что, если заставить нейросеть научиться говорить, как человек? С нуля, генерируя звук по сэмплу, точка за точкой?».

Конфликт: Почему звук – это сложно

Звук – это не слова. Слова – это просто символы. Звук – это физика. Это колебания воздуха, которые мы измеряем 16 000 или 44 100 раз в секунду (частота дискретизации).

Чтобы сгенерировать 1 секунду речи, нейросеть должна предсказать 16 000 значений (сэмплов). И каждый следующий сэмпл зависит от предыдущих. Это как если бы ты писал бесконечную цепочку, где каждое следующее слово зависит от предыдущих 16 000.

Проблема в том, что существующие нейросети (рекуррентные, LSTM) плохо справлялись с такой длинной зависимостью. Они «забывали» начало предложения к тому моменту, как доходили до конца. А для интонации важна вся фраза целиком.

Кроме того, человеческий голос – это не просто частота. Это:

– Дыхание (вдохи перед фразами).

– Интонация (повышение и понижение тона).

– Акценты (выделение важных слов).

– Эмоции (радость, грусть, сарказм).

– Паузы (заполненные и незаполненные).

Ни одна из существующих систем не умела это моделировать. Они выдавали «мёртвый» текст.

Развязка: Гениальная простота

Команда DeepMind (Аарон ван ден Оорд, Карен Симонян и другие) придумала архитектуру, которую назвали WaveNet.

Идея была обманчиво проста: они взяли свёрточные нейросети (те, что используются для распознавания картинок) и применили их к звуку. Но не просто свёрточные, а дилатированные (dilated) свёртки.

Что это значит?

Обычная свёртка смотрит на соседние пиксели. В звуке – на соседние сэмплы. Но чтобы охватить длинные зависимости (например, интонацию всего предложения), нужно смотреть далеко вперёд и назад.

Дилатированная свёртка – это как если бы ты смотрел на звук не подряд, а с шагом: сначала на каждый сэмпл, потом на каждый второй, потом на каждый четвёртый, шестнадцатый и так далее. Это позволяло сети «видеть» и микро-детали (шёпот, шипение), и макро-структуру (ритм фразы) одновременно.

Они сложили много таких слоёв друг на друга (как слоёный пирог), и сеть научилась предсказывать следующий звук на основе всех предыдущих, даже очень далёких.

Второй гениальный трюк: они не просто генерировали звук. Они генерировали распределение вероятностей для каждого следующего сэмпла.

То есть нейросеть не говорила: «Следующий звук будет такой-то». Она говорила: «С вероятностью 70% это будет звук А, с вероятностью 20% – звук Б, с вероятностью 10% – звук В». А потом они выбирали случайно из этого распределения.

Зачем? Чтобы голос звучал естественно. Если выбирать всегда самый вероятный вариант, голос становится слишком «механическим», как автопилот. Если добавить случайность – появляются те самые живые вариации, которые делают речь человеческой.

Инсайт: Момент, когда робот задышал

В 2016 году DeepMind опубликовала статью и демо-записи. Люди, слушавшие их впервые, не могли поверить своим ушам.

Голоса, сгенерированные WaveNet, звучали лучше, чем записи реальных дикторов в существующих системах. Тесты показали, что люди предпочитают WaveNet и реальным записям (потому что реальные дикторы иногда устают и ошибаются), и уж тем более другим синтезаторам.

Но самое потрясающее было в другом.

WaveNet научилась не просто читать текст. Она научилась:

– Имитировать акценты. Ей давали запись человека с ирландским акцентом, и она говорила с ирландским акцентом.

– Передавать эмоции. Она могла говорить сердито, радостно, грустно – если её обучить на соответствующих записях.

– Генерировать дыхание. В паузах между фразами слышно, как диктор делает вдох. Это то, что ни одна система раньше не делала.

А ещё WaveNet научилась генерировать музыку и звуки. Если её обучить на фортепианных записях, она могла сочинять новые мелодии в том же стиле. Если обучить на звуках дождя – она генерировала бесконечный дождь, который звучал как настоящий.

Проблема: Гениальное нельзя запустить

У WaveNet была одна огромная проблема, которая делала её коммерчески непригодной в 2016 году.

Скорость.

Чтобы сгенерировать 1 секунду звука, WaveNet требовалось несколько минут вычислений на мощном процессоре. Потому что она генерировала сэмпл за сэмплом, последовательно, и каждый сэмпл проходил через огромную нейросеть.

Это было как если бы ты хотел послушать аудиокнигу, а тебе приходилось ждать неделю, пока компьютер её наговорит. Для реального использования (Google Assistant, озвучка видео) это было невозможно.

DeepMind пришлось искать компромиссы. Они создали упрощённую версию (Parallel WaveNet), которая использовала вторую нейросеть для «дистилляции» знаний и могла генерировать звук параллельно, в реальном времени.

Наследие: Революция в голосе

WaveNet изменила всё. После неё:

– Google Assistant заговорил новым, живым голосом. Теперь его стало сложно отличить от человека по коротким фразам.

– Амазонка и Apple бросились догонять. Началась гонка голосов.

– Появились коммерческие сервисы синтеза речи (Murf.ai, ElevenLabs), которые делают голоса, неотличимые от человеческих.

– Началась эра дипфейков голоса. Технология, созданная для удобства, быстро стала инструментом мошенников. Сегодня аферисты могут позвонить вам голосом вашего начальника и попросить перевести деньги.

Темная сторона: Когда голос крадут

Самое страшное применение WaveNet и её последователей – это синтез голоса конкретного человека.

Достаточно 3—5 минут записи чужого голоса (из видео, интервью, случайного разговора), чтобы нейросеть научилась говорить так же. Мошенники звонят родственникам и паническим голосом просят выкуп. Журналистов дискредитируют фейковыми высказываниями. Бизнесменов обманывают, имитируя голос партнёров.

WaveNet открыла ящик Пандоры. Мы вступили в эру, где голосу больше нельзя доверять. Если ты не видишь человека своими глазами – ты не можешь быть уверен, что это он.

Твой ход: Четыре урока от WaveNet

– Гениальность в деталях. WaveNet победила не потому, что придумала что-то космическое, а потому что научилась учитывать все детали: дыхание, паузы, интонации. В твоей работе тоже: успех часто в мелочах, которые другие игнорируют.

– Скорость имеет значение. Самая гениальная технология бесполезна, если её нельзя применить в реальной жизни. Всегда думай о том, как твоё решение будет работать «в поле».

– Технология нейтральна. WaveNet создавали, чтобы помочь слепым людям «читать» тексты или чтобы Алиса звучала приятнее. А теперь ею пользуются мошенники. Помни: любой инструмент можно использовать во благо и во зло.

– Проверяй реальность. Если тебе позвонили с неожиданной просьбой о деньгах – перезвони сам, напиши в мессенджер, спроси то, что знаете только вы двое. Доверие к голосу умерло.

P.S.

Знаешь, что сказал один из создателей WaveNet, когда его спросили про мошенников?

«Мы создавали технологию, чтобы помогать людям. То, как её используют другие, – это вопрос образования и законодательства. Но остановить прогресс нельзя. Мы можем только научиться жить в новом мире».

Глава 9. BERT and Co.: Как модели научились читать контекст (Понимание языка)

Крючок: Загадка про банк

Представь, что ты даёшь компьютеру два предложения:

– «Я пошёл в банк, чтобы положить деньги на счёт.»

– «Мы сидели на банке в парке и ели мороженое.»

Для человека это элементарно. В первом случае – финансовое учреждение, во втором – скамейка. Но для машины до 2018 года это была катастрофа. Слово «банк» – это просто набор букв. У него нет значения само по себе. Значение появляется только из контекста.

До появления BERT компьютеры читали текст как мешок слов. Они не понимали, что порядок важен. Они не понимали, что слово может менять смысл в зависимости от соседей. Они были как дислексики, которые видят буквы, но не схватывают суть.

А потом в Google пришла команда исследователей и сделала то, что изменило всё.

Герои: Невидимые гении из Маунтин-Вью

В отличие от DeepMind с их громкими пиар-кампаниями, команда, создавшая BERT, работала в тени. Это были инженеры и исследователи из Google AI Language.

Их имена – Джейкоб Девлин, Мин-Вей Чанг, Кентон Ли, Кристина Тутанова – известны в основном специалистам. Они не играли в Го на глазах у всего мира. Они просто делали свою работу: улучшали поиск Google.

Проблема, которую они решали, была мучительной для всей компании. Google зарабатывает деньги на поиске. А поиск – это понимание того, что ищет пользователь. Если поисковая система не понимает смысла запроса, она показывает ерунду. А пользователи уходят к конкурентам.

К 2018 году все поисковики работали примерно одинаково: они смотрели на слова в запросе и искали страницы, где эти слова встречаются. Это была эра keyword matching. Но люди так не мыслят. Люди мыслят смыслами.

Конфликт: Почему старые модели были глупыми

До BERT все языковые модели работали по одному из двух принципов:

1. Bag of Words (Мешок слов).

Предложение превращалось в набор слов без порядка. «Мама мыла раму» и «Рама мыла маму» для такой модели были одинаковыми. Абсурд, но факт.

2. Односторонние модели (RNN/LSTM).

Они читали текст слева направо и предсказывали следующее слово. Но у них была проблема: они «видели» только прошлое, но не будущее. А для понимания контекста нужно видеть и то, что было ДО, и то, что будет ПОСЛЕ.

Пример: «Он пошёл в банк, потому что ему нужно было…».

Чтобы понять, какой банк имеется в виду, нужно знать, что будет дальше: «… положить деньги» или «… починить штаны». Односторонняя модель этого не умела. Она гадала вслепую.

Исследователи Google задали простой вопрос: «А что, если научить модель смотреть на текст с двух сторон одновременно? Что, если дать ей читать как человек?».

Развязка: BERT – дворецкий, который понимает всё

BERT (Bidirectional Encoder Representations from Transformers) – это архитектура, которая совершила революцию.

Название расшифровывается как «Двунаправленные представления кодировщика от трансформеров». Звучит страшно, но суть проста.

Гениальная идея №1: Двунаправленность.

BERT читает текст сразу весь. Он не идёт слева направо. Он смотрит на все слова в предложении одновременно и для каждого слова учитывает все остальные – и слева, и справа.

Как это работает? Представь, что ты разгадываешь кроссворд. У тебя есть слово из 5 букв, и тебе нужно его угадать. Ты смотришь на соседние слова по вертикали и горизонтали. Ты учитываешь всё сразу. Примерно так же работает BERT.

Гениальная идея №2: Маскировка (Masked Language Model).

Как научить модель понимать контекст, если у тебя нет правильных ответов? В обычном языке нет размеченных данных.

Хитрость: они прятали 15% слов в предложении и заставляли модель угадывать спрятанное.

Например: «Я пошёл в [MASK], чтобы положить деньги.»

Модель должна понять по контексту, что спрятано слово «банк» (финансовый), а не «парк» или «магазин».

Когда модель учится угадывать спрятанные слова, она невольно учится понимать, как слова связаны друг с другом. Она впитывает в себя грамматику, семантику, контекст. Это называется self-supervised learning – самообучение без учителя.

Гениальная идея №3: Трансформеры.

BERT построен на архитектуре Transformer, которая была придумана в Google чуть раньше (знаменитая статья «Attention Is All You Need», 2017). Трансформеры позволяют модели обрабатывать все слова параллельно (а не последовательно, как старые сети) и использовать механизм внимания (attention) – то есть фокусироваться на важных словах в предложении, даже если они далеко друг от друга.

Инсайт: Момент, когда поиск поумнел

В 2018 году Google опубликовала статью про BERT и одновременно выложила код в открытый доступ.

Это был гениальный бизнес-ход. Google могла держать технологию в секрете и пользоваться сама. Вместо этого они открыли исходники. Почему? Потому что BERT – это не продукт. Это фундамент. Google хотела, чтобы весь мир начал строить на этом фундаменте, чтобы экосистема росла, а Google оставалась лидером.

Эффект был мгновенным. BERT побил все рекорды в 11 задачах понимания языка (GLUE benchmark). То, что казалось невозможным вчера, стало реальностью сегодня.

А в 2019 году Google объявила, что BERT работает в поиске. Это было самое большое изменение в алгоритмах поиска за последние 5 лет.

Что это значило для обычных людей?

Раньше, если ты искал «2019 бразилия путешественник забрался в аптеку», Google искал слова «2019», «бразилия», «путешественник», «забрался», «аптека». И находил чёрт знает что.

С BERT Google начала понимать, что предлог «в» меняет смысл. Что «забраться в аптеку» – это не то же самое, что «купить в аптеке». Что контекст важен.

Вот пример, который приводила сама Google:

Запрос: «Do estheticians stand a lot at work?» (Много ли стоят косметологи на работе?)

Раньше Google показывала страницы про «стоячую работу» вообще. BERT понял, что важно слово «estheticians» (косметологи), и выдал точный ответ именно про эту профессию.

Война гигантов: BERT против всех

Успех BERT породил гонку вооружений. Все захотели свою «понимающую» модель.

– OpenAI выпустила GPT (Generative Pre-trained Transformer). Но их модель была односторонней (слева направо). Она лучше генерировала текст, но хуже понимала контекст.

– Фейс выпустил RoBERTa – улучшенную версию BERT (больше данных, дольше обучение, хитрее настройки).

– Microsoft выпустила MT-DNN, Turing-NLG.

– Google не остановилась: вышли ALBERT (лёгкий BERT), T5 (Text-to-Text Transfer Transformer) – модель, которая умела делать всё: переводить, отвечать, обобщать, просто превращая любую задачу в текст.

Каждая новая модель была больше, мощнее и требовала больше вычислительных ресурсов. Если первые версии BERT имели 110 миллионов параметров, то современные модели (GPT-3) доросли до 175 миллиардов.

Темная сторона: Размер имеет значение?

У этого бума был обратный эффект.

1. Экологический. Обучение большой языковой модели выделяет столько же CO2, сколько 5 автомобилей за весь срок службы. Гонка гигантов стала угрожать климату.

2. Элитарный. Только суперкорпорации (Google, Microsoft…) могли позволить себе обучать такие модели. Университеты и стартапы выпали из гонки. Наука из открытой стала закрытой.

3. Невменяемый. Модели стали настолько большими, что никто до конца не понимает, как они работают внутри. Мы знаем, что на входе и что на выходе, но что происходит между ними – «чёрный ящик».

Наследие: Без BERT не было бы ChatGPT

BERT и его последователи создали фундамент для всего, что мы имеем сейчас.

– Поисковики стали умными. Яндекс тоже внедрил свои аналоги.

– Голосовые помощники начали понимать сложные запросы.

– Анализ тональности (определение эмоций по тексту) вышел на новый уровень.

– Машинный перевод перестал быть корявым.

– И самое главное: BERT доказал, что контекст – это всё.

А потом, через несколько лет, на этом фундаменте построили ChatGPT. Но об этом позже.

Твой ход: Четыре урока от BERT

– Смотри на проблему с двух сторон. Одностороннее мышление – главный враг понимания. Всегда ищи контекст, всегда смотри на ситуацию с разных углов.

– Учись угадывать спрятанное. Метод маскировки (предсказание пропущенного) – отличный способ учиться чему угодно. Когда ты сталкиваешься с неполной информацией, попробуй восстановить целое. Это тренирует мозг.

– Открытость порождает экосистему. Google открыла BERT – и весь мир начал работать на их технологии. Иногда выгоднее поделиться, чем спрятать.

– Размер – не главное. BERT был прорывом не потому, что был огромным, а потому что был умным. В погоне за масштабом не забывай про качество архитектуры.

<1 2 3 4 5...7 >

На страницу:

Перейти

3 из 7