Инжиниринг искусственного интеллекта
Инжиниринг искусственного интеллекта

Полная версия

Инжиниринг искусственного интеллекта

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
7 из 7

Трансформеры универсальны: они работают не только с текстом. Изображение можно разрезать на квадратики (патчи), каждый патч превратить в вектор через линейный слой, добавить информацию о позиции - и подать в тот же трансформер. В отличие от текста, у патчей нет заранее заготовленного словаря, а размерность вектора выбирается инженером: больше - больше «места» для сложных признаков, но медленнее; меньше - быстрее, но можно потерять детали. Этот принцип лежит в основе Vision Transformer (ViT) и генеративных моделей вроде Stable Diffusion.


Вопросы для самопроверки


1. Почему CNN, отлично работающие с изображениями, плохо подходят для обработки текста?


2. В чём проявляется «забывчивость» простых RNN и как LSTM пытается эту проблему решить?


3. Какие недостатки LSTM устраняет GRU и какой ценой?


4. Три семейства трансформеров: decoder-only, encoder-only, encoder-decoder. Приведите примеры задач для каждого.


5. Какие фундаментальные недостатки есть у трансформеров и как альтернативные архитектуры (SSM, RWKV) пытаются их обойти?


6. Объясните метафору «клиники с узкими специалистами» применительно к архитектуре MoE.


7. Чем диффузионные модели принципиально отличаются от GAN? Почему диффузия победила в text-to-image?


8. Как трансформеры обрабатывают изображения? Что такое патч и почему его нельзя заменить токеном из словаря? Почему вектор патча обычно больше, чем количество пикселей в нем?


ГЛАВА 3. ОБУЧЕНИЕ МОДЕЛЕЙ


В предыдущей главе мы рассмотрели «железо» - различные архитектуры нейросетей, от свёрточных до диффузионных. Но архитектура - это только скелет. Чтобы модель заработала, её нужно обучить, вложить в неё знания.

И вот здесь начинается самое интересное: обучение современных языковых моделей - это не один этап, а целый конвейер.


Три ключевых этапа


1. Pretraining (предварительное обучение) - модель читает интернет и учится предсказывать следующее слово. Это фундамент, но он стоит десятков миллионов долларов.


2. SFT (Supervised FineTuning, дообучение с учителем) - модель тренируется на парах «вопрос → идеальный ответ». Превращает «энциклопедию» в ассистента.


3. RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от человека) - люди показывают модели, какие ответы хорошие. Делает модель вежливой и безопасной.




В этой главе мы разберём каждый этап. Узнаем, сколько это стоит, почему данные важнее архитектуры, и почему RLHF не делает модель «объективной», а вшивает в неё ценности разработчика.


3.1 Pre‑training (Предварительное обучение)


Представьте, что вы хотите вырастить специалиста широкого профиля. Сначала вы отправляете его в библиотеку читать всё подряд - тысячи книг, энциклопедий, статей. Он ещё не знает, какие именно вопросы ему будут задавать, но впитывает информацию, учится структуре языка, фактам, логике. Это и есть предварительное обучение.

Звучит просто: бери огромный корпус текстов и учи модель предсказывать следующее слово. Но за этой простотой скрывается инженерный подвиг, доступный лишь единицам. Давайте прикинем, что значит «огромный» в цифрах.

Модель обучается на огромных неразмеченных корпусах (триллионы токенов). Задача - предсказание следующего токена (next token prediction). Это обучение без учителя (self‑supervised learning) - правильные ответы уже есть в данных. Цель: выучить статистику языка, факты, логику повествования.

Pre-training - это не просто "много данных". Это инженерный подвиг, который могут позволить себе единицы.


Грязный секрет больших моделей: данные важнее архитектуры


Когда говорят о триллионах токенов, часто забывают о качестве этих токенов. А зря. Мусор на входе - мусор на выходе работает для нейросетей даже жёстче, чем для классического программирования. Можно собрать 100 терабайтов текста, но если там 30% - рекламный спам, 20% - машинный перевод с ошибками, а 10% - откровенно токсичный контент, модель выучит этот мусор так же хорошо, как и правильный язык.


Проблемы с данными, с которыми сталкиваются инженеры


Дубликаты

Один и тот же текст может встречаться в корпусе тысячи раз (например, типовые пользовательские соглашения). Модель переобучается на этих дубликатах, считая их важнее, чем уникальный контент.


Низкокачественный контент

Форумы с бессмысленными сообщениями, автоматически сгенерированные страницы, рекламный спам - всё это засоряет корпус и учит модель галлюцинировать.


Языковой дисбаланс

Английского в интернете в разы больше, чем всех остальных языков вместе взятых. Модель, обученная на таком корпусе, будет говорить по-английски отлично, а на других языках - со странным акцентом и ошибками.


Явный и неявный токсичный контент

Если не фильтровать корпус, модель выучит все предрассудки, ненависть и стереотипы, которые есть в интернете. RLHF потом это исправляет, но зачем создавать себе лишнюю работу?


Что делают инженеры с данными перед обучением


Дедупликация

удаляют повторяющиеся тексты (на уровне документов, абзацев и даже предложений).


Фильтрация по качеству

используют классификаторы, чтобы отсеять спам, машинный перевод, бессмысленный контент.


Балансировка языков

если английского слишком много, его искусственно ограничивают, чтобы другие языки получили достаточно внимания.


Токенизация с учётом языков

подбирают размер словаря и алгоритм так, чтобы редкие языки не разбивались на слишком мелкие токены.


Safety -фильтры

удаляют откровенно токсичный или нелегальный контент (насколько это вообще возможно для интернет-масштабов).


Практический вывод


Архитектура определяет потолок возможностей модели, но данные определяют, достигнет ли модель этого потолка. Две одинаковые архитектуры, обученные на разных корпусах, могут отличаться по качеству в разы. Поэтому, когда вы слышите «мы обучили модель на 10 триллионах токенов», всегда стоит спросить: «А что это были за токены? Сколько из них - мусор? Как вы чистили данные?» Часто ответы на эти вопросы объясняют разницу в качестве лучше, чем сравнение архитектур.

Речь идёт не только о сборе данных, но и о создании инфраструктуры, способной переварить эти объёмы. Кластеры из тысяч GPU работают месяцами, потребляя энергию малого города. Сбои оборудования, потери данных, нестабильность обучения — всё это часть ежедневной рутины инженеров, которые тренируют большие модели. Каждая такая тренировка - это лотерея: даже при идеальных настройках никто не гарантирует, что модель "сойдётся" в нужную сторону.

Но что стоит за сухими цифрами «триллионы токенов»? Давайте переведём их в понятные инженеру величины - часы работы GPU, счета за электричество и седые волосы дата-центрщиков.


Инженерный калькулятор




Важное предупреждение


Цены на GPU сильно варьируются в зависимости от провайдера (AWS, Google Cloud, Azure), региона, времени аренды (spot-инстансы дешевле), конкретной конфигурации и скидок за долгосрочные контракты. В 2025 году цены могут отличаться в 2–3 раза от указанных. Кроме того, существуют специализированные чипы (TPU от Google, Trainium от AWS), которые могут быть экономичнее для конкретных задач. Воспринимайте приведённые цифры как порядковую оценку, а не как коммерческое предложение.

Но деньги - не единственная цена. Модель не становится умной мгновенно. Чтобы понять, как растёт её понимание, давайте проследим эволюцию знаний по мере того, как модель перерабатывает триллионы токенов. Это похоже на то, как ребёнок учится говорить: сначала он просто повторяет звуки, потом складывает их в слова, затем начинает замечать, что слова можно соединять, и лишь спустя годы приходит к пониманию сложных абстракций. Модель проходит тот же путь, только в миллион раз быстрее и на материале всей человеческой культуры.


Что выучивает модель на разных этапах




Pre-training - это инвестиция в "фундамент". Если вы не Google или OpenAI, вы не будете это делать. Вы возьмете готовую open-source модель и будете её дообучать.

К концу pre-training модель превращается в статистический слепок интернета - она знает факты, грамматику, логику, но всё ещё может галлюцинировать и, главное, совершенно не умеет отвечать на вопросы в диалоговом режиме. Это как энциклопедия, которая выдаёт статьи, но не понимает, что вы хотите получить краткий ответ. Следующий этап превращает энциклопедию в ассистента.


3.2 SFT - Supervised Fine‑Tuning (Дообучение с учителем)


Итак, у нас есть модель, которая отлично продолжает текст. Вы пишете «Кот ел...», она допишет «...сметану». Но если спросить её «Как испечь пирог?», она скорее всего выдаст что-то вроде «пирог рецепт мука яйцо сахар печь» - просто продолжит ряд слов, потому что в её обучающих данных вопросы и ответы не были размечены. Чтобы научить её отвечать, нужен следующий этап - дообучение с учителем.

Разница между до и после SFT - как между студентом, который просто заучил учебник, и тем, кто научился отвечать на экзамене. Давайте посмотрим на конкретном примере.




Этот пример хорошо иллюстрирует главный принцип SFT: модель не узнаёт новые факты. Она уже знает их из pre-training. SFT учит её доставать эти факты в нужном формате, структурировать ответ, начинать с главного, давать пояснения.

SFT - это не про "добавить знаний". Это про формат взаимодействия. Модель уже знает факты из pre-training. SFT учит её доставать их в диалоговой форме.




Чтобы закрепить понимание, представьте себе студента-отличника, который за годы учёбы прочитал тысячи книг и статей (это pre-training). Он знает всё: формулы, исторические даты, химические реакции, но никогда не сдавал устных экзаменов. Если вы спросите его: «Как испечь пирог?», он начнёт бормотать: «мука… яйца… печь… температура…» - просто перечислять термины из памяти, потому что он не умеет строить связный ответ.


Теперь представьте, что этот студент приходит на курс подготовки к экзаменам (SFT). Ему показывают примеры идеальных ответов на типовые вопросы: «Как испечь пирог?» - и в ответе написано: «Сначала смешайте сухие ингредиенты, потом добавьте яйца…». Студент тренируется на сотнях таких примеров, и постепенно усваивает формат диалога

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Конец ознакомительного фрагмента
Купить и скачать всю книгу
На страницу:
7 из 7