
Полная версия
Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь
Word2Vec породил целое семейство технологий.
GloVe (Global Vectors) от Stanford:
Другая техника, которая учитывает не только локальный контекст, но и статистику по всему тексту целиком. Часто работает ещё лучше.
FastText:
Улучшение от Миколова. Учит векторы не только для целых слов, но и для частей слов (n-грамм). Это позволяет находить векторы для редких слов и даже для тех, которых не было в обучающей выборке.
ELMo, BERT и далее:
Современные модели пошли дальше: они создают векторы, которые зависят от контекста. То есть у слова «банк» будет разный вектор в зависимости от того, финансовое это учреждение или скамейка в парке. Но всё это выросло из идей Word2Vec.
Темная сторона: Стереотипы в числах
У Word2Vec обнаружилась и тёмная сторона. Поскольку модель учится на человеческих текстах, она впитывает все наши предрассудки.
Исследователи обнаружили, что в векторах проявляются гендерные и расовые стереотипы.
Например:
– «Программист» – «мужчина» + «женщина» часто давало «домохозяйка».
– «Врач» ближе к «мужчина», а «медсестра» ближе к «женщина».
– Европейские имена ассоциировались с приятными словами, а африканские – с неприятными.
Это была важная находка. Она показала, что ИИ не просто отражает реальность, а усиливает наши предрассудки, потому что учится на исторических данных. С тех пор тема «смещения в данных» (bias) стала одной из главных в этике ИИ.
Наследие: Word2Vec в каждом телефоне
Сегодня Word2Vec живёт везде.
– Поиск: Когда ты ищешь «пушистые животные», Google понимает, что ты имеешь в виду кошек, даже если ты не написал это слово.
– Перевод: Машинный перевод использует векторные представления, чтобы находить соответствия между языками.
– Рекомендации: Системы рекомендуют товары, которые «близки» к тому, что ты уже купил.
– Анализ тональности: Компании анализируют отзывы, переводя слова в векторы и смотря, с какими эмоциями они связаны.
Твой ход: Четыре урока от Word2Vec
– Смысл рождается в контексте. Ты – это твоё окружение. Слова, которые ты используешь, люди, с которыми общаешься, книги, которые читаешь – всё это формирует твой «вектор». Хочешь измениться – измени контекст.
– Ищи скрытые закономерности. Word2Vec нашёл структуру там, где её никто не искал. В твоих данных, в твоей жизни, в твоей работе – тоже есть скрытые паттерны. Просто нужно правильно посмотреть.
– Арифметика работает не только с числами. Смыслы можно складывать и вычитать. Когда ты строишь карьеру, ты фактически делаешь «Навыки» + «Опыт» – «Ошибки» = «Профессионал». Думай в терминах векторов.
– Остерегайся стереотипов. Данные, на которых ты учишься, могут быть предвзяты. Всегда критически оценивай, откуда берутся твои «векторы» и какие неявные предположения они в себе несут.
P.S.
Знаешь, что сказал Томаш Миколов, когда его спросили, как он додумался до такой элегантной идеи?
«Я просто хотел, чтобы компьютер понимал, что кошки и собаки – это животные, а не просто разные цифры. И оказалось, что для этого достаточно заставить его угадывать слова по соседям. Всё гениальное – просто».
Часть 3: Генеративная революция. Творцы, а не просто классификаторы
Глава 13. Трансформеры: Почему статья «Attention Is All You Need» взорвала мир
Крючок: Восемь имён, которые вы должны знать
Летом 2017 года на arXiv (сайт с научными статьями) появился препринт с броским названием: «Attention Is All You Need» («Внимание – всё, что тебе нужно»).
Авторов было восемь: Ашиш Васвани, Ной Шазер, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Гомес, Лукаш Кайзер и Илья Полосухин.
Тогда на эту статью мало кто обратил внимание. Ну, подумаешь, очередная архитектура для машинного перевода. Мало ли их выходит каждый месяц.
Сегодня эта статья – одна из самых цитируемых в истории компьютерных наук. На её основе построены все современные большие языковые модели: GPT, BERT, Gemini, Llama, Claude. Без неё не было бы ChatGPT. Не было бы Midjourney. Не было бы того мира, в котором мы живём.
Что же такого гениального они написали?
Герои: Команда мечты из Google
Восемь авторов работали в Google Brain и Google Research. Это была сборная солянка талантов из разных стран: США, Индия, Польша, Канада.
Их идея родилась из разочарования. В то время лучшими моделями для работы с последовательностями (текст, речь) были рекуррентные нейросети (RNN) и LSTM. Они читали текст слово за словом, поддерживая внутреннее состояние (память).
Но у RNN были огромные проблемы:
– Медленно. Нельзя распараллелить, потому что нужно ждать, пока обработается первое слово, потом второе и так далее.
– Забывчивость. Длинные зависимости (когда важное слово в начале предложения влияет на слово в конце) давались им с трудом.
– Сложно обучать. Градиенты затухали на длинных последовательностях.
Команда задала себе дерзкий вопрос: «А что, если выкинуть всю рекуррентность вообще? Что, если оставить только механизм внимания?»
Конфликт: Почему все думали, что внимание – это добавка
Механизм внимания (attention) был известен и до 2017 года. Его использовали в машинном переводе как дополнение к RNN. Идея была простая: когда модель переводит предложение, она не обязана смотреть на все слова исходного текста равномерно. Она может фокусироваться на нужных словах в нужный момент.
Например, переводя слово «кот», она смотрит на слово «cat» в исходном предложении, а не на артикли и предлоги.
Но внимание всегда считалось приправой к основному блюду – рекуррентным сетям. Никто не думал, что внимание может быть основным блюдом.
Команда трансформеров решила проверить эту безумную гипотезу.
Развязка: Архитектура, которая изменила всё
Трансформер, который они предложили, состоял из нескольких ключевых идей.
Идея 1: Самовнимание (Self-Attention).
Это гениальный ход. Модель смотрит на предложение и спрашивает: «Какие слова здесь важны друг для друга?».
В предложении «Она уронила сумку, потому что она была тяжёлая» – кто «она»? Сумка или женщина? Человек понимает по контексту. Трансформер учится понимать то же самое, вычисляя «внимание» между всеми словами одновременно.
Каждое слово «смотрит» на все другие слова в предложении и решает, насколько они важны для его понимания.
Идея 2: Параллельная обработка.
В отличие от RNN, которые читают последовательно, трансформер читает все слова сразу. Это как если бы ты смотрел на весь текст целиком, а не читал по буквам. Это позволяет обучать модели на огромных кластерах GPU, потому что всё можно распараллелить.
Идея 3: Позиционные кодировки.
Но если все слова видны сразу, как модель понимает их порядок? Ведь «Кот съел мышь» и «Мышь съела кота» – это разные вещи.
Авторы придумали добавлять к векторам слов специальные позиционные сигналы (синусы и косинусы разных частот), которые кодируют позицию слова в предложении. Математически элегантное решение.
Идея 4: Многоголовое внимание (Multi-Head Attention).
Вместо одного механизма внимания они использовали несколько «голов», каждая из которых учится обращать внимание на разные аспекты текста. Одна голова следит за синтаксисом, другая – за семантикой, третья – за местоимениями. Потом всё это собирается вместе.
Инсайт: Почему «All You Need»
Название статьи – «Attention Is All You Need» – звучало как манифест. И оно оказалось правдой.
Трансформер оказался лучше RNN во всём:
– Скорость обучения: в разы быстрее благодаря параллелизации.
– Качество: лучше захватывал длинные зависимости.
– Масштабируемость: его можно было делать огромным, добавляя слои и головы внимания.
Статья показала, что рекуррентные сети больше не нужны. Внимание действительно решает все задачи работы с последовательностями.
Триумф: Как трансформер завоевал мир
После выхода статьи в 2017 году началась лавина.
2018: BERT (от Google) использует трансформеры и бьёт все рекорды в понимании языка.
2018—2020: GPT (от OpenAI) использует трансформеры и учится генерировать текст.
2020: GPT-3 с 175 миллиардами параметров показывает, что масштабирование трансформеров даёт разум.
2022: ChatGPT выходит в свет, и мир сходит с ума.
2023—2024: Трансформеры начинают использовать везде: в музыке (MusicGen), в видео (Sora, Veo), в химии (AlphaFold), в генетике (AlphaMissense).
Трансформер стал универсальной архитектурой для всего, где есть последовательности.
Почему это гениально (ещё раз, простыми словами)
Представь, что ты читаешь книгу в компании друзей. Раньше (RNN) вы читали по очереди: первый прочитал слово, передал эстафету второму, тот третьему. Медленно, и к концу страницы первый уже забыл начало.
Трансформер – это когда все одновременно читают всю страницу и постоянно перекрикиваются: «Эй, смотри, это слово связано с тем словом в начале!» Все слышат всех одновременно. Быстро, эффективно, и никто ничего не забывает.
Темная сторона: Цена внимания
У трансформеров есть и обратная сторона.
1. Квадратичная сложность.
Чем длиннее текст, тем больше вычислений нужно. Внимание считается для всех пар слов, а это квадрат от длины текста. Для коротких текстов ок, но для целых книг (1 миллион токенов) это становится проблемой. Учёные бьются над решением (Sparse Attention, Linear Attention), но проблема пока не решена полностью.
2. Гигантомания.
Трансформеры так хорошо масштабируются, что все бросились делать модели всё больше и больше. GPT-3 – 175 млрд параметров. GPT-4 – 估计 1.8 трлн (по слухам). Это требует чудовищных ресурсов, доступных только гигантам.
3. Непонятность.
Модели стали настолько сложными, что никто до конца не понимает, как именно они работают. Мы знаем архитектуру, но внутренняя жизнь трансформера с миллиардами параметров – это «чёрный ящик».
Наследие: Восемь гениев, разлетевшихся по миру
Судьба авторов той статьи тоже интересна. Они разлетелись по разным компаниям, основывая новые проекты.
– Эйдан Гомес соосновал Cohere – конкурента OpenAI.
– Ной Шазер и Ники Пармар основали Character.ai – платформу для общения с ИИ-персонажами.
– Лукан Кайзер ушёл в DeepMind.
– Илья Полосухин (кстати, выходец из России) работал в Google, потом в OpenAI.
Все они стали звёздами первой величины. А их статья продолжает собирать цитирования и вдохновлять новые поколения исследователей.
Твой ход: Четыре урока от трансформеров
– Иногда старое – это новое. Механизм внимания был известен. Но никто не думал сделать его главным. Не бойся брать известные идеи и доводить их до крайности.
– Параллельность – сила. В мире, где всё можно делать одновременно, последовательные процессы проигрывают. Ищи, что в твоей работе можно делать параллельно.
– Контекст решает всё. Трансформеры победили, потому что научились учитывать весь контекст сразу. В жизни тоже: принимай решения, оглядываясь на всю картину целиком, а не на один фрагмент.
– Название имеет значение. «Attention Is All You Need» – гениальный заголовок. Он запоминается, он интригует, он обещает революцию. Учись упаковывать свои идеи в яркие формулировки.
P.S.
Знаешь, что сказал один из авторов, когда его спросили, ожидали ли они такого успеха?
«Мы знали, что это хорошая работа. Но чтобы она изменила весь мир? Нет, конечно. Мы просто пытались решить конкретную задачу – ускорить машинный перевод».
Так часто бывает с гениальными открытиями – они решают локальную проблему, а меняют всё вокруг.
Глава 14. GPT-2: Испуг в OpenAI – почему модель боялись выложить в открытый доступ
Крючок: Новость, которая взбудоражила мир
Февраль 2019 года. Сайт OpenAI, некоммерческой организации, созданной Илоном Маском и Сэмом Альтманом (тогда ещё некоммерческой), публикует сообщение.
Они создали новую языковую модель под названием GPT-2. И она умеет… всё.
Генерировать связные тексты на любые темы. Отвечать на вопросы. Писать статьи. Сочинять рассказы. Переводить. Суммировать. И всё это без специального обучения – просто ей даёшь задание на естественном языке, и она его выполняет.
Звучит знакомо, правда? Это было за три года до ChatGPT.
Но самое шокирующее было не в этом. OpenAI заявила: «Мы не будем выкладывать полную модель в открытый доступ».
Они сказали, что модель слишком опасна. Что её могут использовать для создания фейковых новостей, спама, пропаганды, манипуляций. Что они боятся «злоумышленников».
Сообщество ИИ взорвалось. Одни кричали: «Цензура! Вы предаёте идеалы открытости!». Другие: «Молодцы, безопасность прежде всего!». Третьи: «Они просто хотят заработать, прикрываясь этикой».
Что же на самом деле произошло?
Герои: Команда, которая увидела будущее
За GPT-2 стояла команда исследователей OpenAI, включая Алека Рэдфорда (того самого, кто позже станет ключевой фигурой в создании GPT-3 и GPT-4).
Они не изобрели ничего принципиально нового в архитектуре. Они взяли трансформер (глава 13) и просто… сделали его больше.
– GPT-1 (2018) была маленькой моделью, которая неплохо справлялась с конкретными задачами после дообучения.
– GPT-2 была в 10 раз больше: 1,5 миллиарда параметров.
– Её обучили на огромном датасете WebText – 8 миллионов веб-страниц (45 терабайт текста), отобранных по ссылкам с Reddit.
И вдруг обнаружился эффект, который никто не ожидал.
Инсайт: Рождение «zero-shot» обучения
Раньше считалось, что языковые модели нужно специально обучать для каждой задачи. Хочешь перевод – учи на переводах. Хочешь ответы на вопросы – учи на парах вопрос-ответ.
GPT-2 показала, что это необязательно.
Если модель достаточно большая и обучена на достаточно разнообразных данных, она начинает сама обобщать. Ей не нужно показывать примеры перевода – она уже видела переводы в интернете и поняла, как это работает. Ей не нужно учиться отвечать на вопросы – она просто знает, что после вопроса обычно идёт ответ.
Это называлось zero-shot learning (обучение без примеров) или few-shot learning (обучение на нескольких примерах прямо в запросе).
Ты просто пишешь:
Переведи на французский: «Как дела?»
Comment ça va?
И модель понимает: ага, сейчас мне нужно перевести следующую фразу.
Это было открытие. Оно означало, что большие модели – это не просто инструменты для конкретных задач, а зачатки общего интеллекта.
Конфликт: Чем же она так опасна?
OpenAI опубликовала список страшилок. Звучало убедительно.
1. Фейковые новости (масштабируемый обман).
Представь, что ты можешь генерировать тысячи статей, неотличимых от человеческих, за минуты. Можно заполнить интернет пропагандой, дезинформацией, фейками. Люди перестанут понимать, где правда.
2. Социальные боты.
Тысячи аккаунтов в соцсетях, которые ведут осмысленные беседы, продвигают нужные мнения, манипулируют общественным дискурсом. И всё это автоматически.
3. Спам следующего уровня.
Не просто «Купи виагру», а персонализированные письма, написанные так, что их не отличить от человеческих. Идеальные фишинговые атаки.
4. Радикализация.
Модель может генерировать экстремистский контент, если её подтолкнуть. А злоумышленники могут её использовать для создания пропаганды.
В демо-примерах они показали, как GPT-2 продолжает текст про «фейковые новости» и пишет абсолютно убедительную чушь про то, что «учёные обнаружили, что айфоны излучают радиацию, вызывающую рак» (все детали выдуманы, но звучат научно).
Решение: Частичная публикация
OpenAI пошла на компромисс, который разозлил всех.
Они опубликовали:
– Статью с подробным описанием архитектуры.
– Меньшую версию модели (124 миллиона параметров) в открытом доступе.
– Но полную модель (1,5 млрд) оставили себе, пообещав выдать доступ «проверенным исследователям по запросу».
Сообщество взвыло. Критики говорили: «Если архитектура известна, любая крупная компания или государство воспроизведут модель за пару месяцев. А мелким разработчикам вы закрываете доступ. Это элитизм!».
Другие возражали: «Лучше перебдеть, чем недобдеть. Посмотрим, что будет через полгода».
Что было дальше: Проверка страхов
Прошло полгода. OpenAI постепенно выкладывала всё большие версии. К концу 2019 года полная модель стала доступна.
И что? Мир рухнул? Началась эпидемия фейков?
Не совсем.
Что сбылось:
– Модель действительно использовали для создания контента. Появились генераторы статей, постов, рекламных текстов.
– Некоторые спамеры начали экспериментировать, но массового злоупотребления не случилось.
Что НЕ сбылось:
– Армагеддона с фейковыми новостями не произошло. Оказалось, что для убедительной лжи нужно не только уметь генерировать текст, но и распространять его, встраивать в медийную повестку, обходить модерацию. Это всё ещё делают люди, а не алгоритмы.
– Модель была не настолько умной, чтобы полностью заменить человека в сложных манипуляциях. Она часто «галлюцинировала» (выдумывала факты) и писала бессвязно, если не контролировать.
Многие исследователи сказали: «OpenAI переоценила опасность. Они просто испугались собственной тени».
Но был и другой взгляд.
Инсайт: Почему испуг был важен
Несмотря на то, что апокалипсис не случился, решение OpenAI сыграло огромную роль.
1. Оно запустило глобальную дискуссию об этике ИИ.
Впервые в истории создатели модели публично заявили: «Наше творение может быть опасным, и мы несём за него ответственность». Это изменило тон разговоров об ИИ. Появились этические комитеты, правила публикации, исследования по безопасности.
2. Оно показало, что большие модели – это не просто игрушки.
Испуг OpenAI привлёк к GPT-2 огромное внимание. Если бы они просто выложили модель, это была бы ещё одна научная статья. А так это стало мировой новостью. Все захотели узнать, что же там такого страшного.
3. Оно заложило основу для будущей политики OpenAI.
Когда через три года выйдет GPT-4, OpenAI снова будет вводить ограничения, но уже более системно: доступ через API, фильтры контента, модерация. Испуг 2019 года стал репетицией.
Критика: А не пиар ли это?
Конечно, были и циники. Они говорили:
– «OpenAI просто сделала гениальный пиар-ход. Все обсуждают их модель, хотя она не самая лучшая (у Google были модели и побольше)».
– «Они хотят монополизировать технологию, прикрываясь этикой».
– «Если бы они действительно боялись, они бы не публиковали статью с архитектурой. Они хотели и славу получить, и контроль сохранить».
Доля правды в этом есть. Но даже если это был пиар, он сработал. GPT-2 стала самой обсуждаемой моделью 2019 года.
Наследие: Что осталось после GPT-2
GPT-2 изменила ландшафт ИИ навсегда.
1. Zero-shot и few-shot стали мейнстримом.
После GPT-2 все бросились исследовать, как большие модели обобщают знания. Это привело к GPT-3, а потом и к ChatGPT.
2. Открытость vs безопасность.
Дилемма, которую OpenAI поставила в 2019 году, до сих пор не решена. Каждая новая мощная модель вызывает споры: публиковать или не публиковать? Meta опубликовала Llama (и её слили в открытый доступ). Google держит Gemini под замком. Единого ответа нет.
3. Галлюцинации стали проблемой.
Именно GPT-2 показала, что большие языковые модели склонны уверенно врать. Они не говорят «я не знаю». Они придумывают правдоподобную чушь. Эта проблема не решена до сих пор.
Твой ход: Четыре урока от GPT-2
– Ответственность создателя. Ты отвечаешь за то, что создаёшь, даже если последствия неочевидны. Иногда лучше подождать и подумать, чем выложить и пожалеть.
– Страх может быть преувеличен. OpenAI боялась апокалипсиса, а получила дискуссию. Не позволяй страху парализовать действие, но и не игнорируй риски совсем.
– Контекст решает всё. Модель опасна не сама по себе, а в сочетании с человеческим намерением. Инструмент нейтрален – важно, в чьих он руках.
– Учись на чужих страхах. История GPT-2 – хороший пример того, как можно балансировать между открытостью и безопасностью. Используй этот опыт в своих проектах.
P.S.
Знаешь, что сказал Сэм Альтман через несколько лет?
«Оглядываясь назад, мы, возможно, переоценили риски GPT-2. Но это был важный опыт. Мы учились, и лучше перебдеть, чем недобдеть. Без этого опыта мы бы не справились с GPT-3 и GPT-4».
Глава 15. ChatGPT: Момент, когда ИИ заговорил как человек
Крючок: 5 дней, которые потрясли мир
30 ноября 2022 года. Обычный осенний день. В мире происходит тысяча событий: война, кризис в экономике, чемпионат мира по футболу в Катаре.
Маленькая компания OpenAI, о которой знают в основном специалисты, тихо запускает «исследовательский превью» – бесплатный чат-бот под названием ChatGPT.
Никакой рекламы. Никаких пресс-релизов. Просто ссылка в твиттере Сэма Альтмана.
Через 5 дней у ChatGPT миллион пользователей.
Через 2 месяца – 100 миллионов пользователей. Это самый быстрый рост в истории человечества. Ни одно приложение, ни одна соцсеть, ни один сервис не росли так быстро. Соц. Сеть добиралась до 100 миллионов 9 месяцев. ChatGPT – 2 месяца.
Что произошло? Почему именно эта версия, именно этого чат-бота, именно в этот момент взорвала мир?
Герои: Команда, которая сделала ставку на разговор
За ChatGPT стояла всё та же команда OpenAI, которую мы уже знаем по GPT-2 и GPT-3.
Сэм Альтман – генеральный директор, визионер и главный публичный спикер.
Грег Брокман – президент и технический гений, который собирал команду.
Илья Суцкевер – главный научный сотрудник, тот самый ученик Хинтона из AlexNet, который верил в масштабирование.
И сотни инженеров, исследователей, дизайнеров.
Но ключевой момент был не в создании самой модели. GPT-3 существовала с 2020 года. Она была огромной (175 миллиардов параметров) и умной, но… с ней было тяжело разговаривать.
Она могла выдать гениальный текст, а могла понести чушь. Она могла оскорбить собеседника. Она могла выдать расистские высказывания. Она не слушалась.
Нужно было научить её вести себя.
Конфликт: Умная, но невоспитанная
Представь, что у тебя есть друг-гений. Он знает всё на свете, может решить любую задачу, написать любой текст. Но он совершенно не умеет общаться. Может нахамить, может уйти в бессвязный монолог, может обидеться на ровном месте. Ты будешь с ним дружить? Нет.
GPT-3 была таким гением. Её нужно было «приручить».
OpenAI сделала две ключевые вещи.
Шаг 1: Обучение с учителем (Supervised Fine-Tuning).
Они наняли десятки тысяч людей (в основном через Кению и другие страны с дешёвой рабочей силой), которые сидели и писали «правильные» ответы на вопросы.






