Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь
Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Полная версия

Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Язык: Русский
Год издания: 2026
Добавлена:
Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
7 из 7

Лицензионные споры. Copilot обучался на миллионах репозиториев, многие из которых имели открытые лицензии. Иногда он генерировал код, почти дословно совпадающий с оригинальным. Юристы заспорили: можно ли считать это fair use? GitHub утверждает, что обучение на публичных данных – общепринятая практика, но споры не утихают.

Безопасность. Исследование 2022 года показало, что примерно 40% сгенерированного Copilot кода содержит потенциальные уязвимости. Он может предложить небезопасный способ работы с базой данных или подверженный XSS JavaScript.

Деградация навыков. Новички, привыкшие полагаться на Copilot, могут не научиться писать код с нуля. Исследование Oakland University показало, что Codex решает задачи лучше большинства студентов, но его решения часто нарушают ограничения, установленные преподавателем.

Конкуренция. К 2025—2026 годам у Copilot появились серьёзные конкуренты – Cursor, Claude Code, Codex, Devin. Некоторые компании, включая Goldman Sachs, начали сокращать использование Copilot в пользу более специализированных инструментов.

Твой ход: Четыре урока от GitHub Copilot

– Рутина уходит, творчество остаётся. Copilot не заменяет программиста, а берёт на себя скучную работу. Освободившееся время можно потратить на архитектуру, дизайн, решение сложных проблем.

– Качество промпта определяет результат. Научиться чётко формулировать задачи – новый базовый навык. Расплывчатый запрос даёт мусор, точный – шедевр.

– Код нужно проверять. Copilot ошибается, генерирует уязвимости, иногда выдаёт полную бессмыслицу. Ответственность за код всегда остаётся на человеке.

– Инструмент не заменяет понимание. Новичкам важно не просто копировать предложения Copilot, а разбираться, почему он предлагает именно такое решение. Иначе вместо программиста вырастет оператор ИИ.

P.S.

Знаешь, что сказал один из разработчиков, впервые попробовав Copilot?

«Я написал комментарий „сделай парсер логов“, и он сгенерировал 50 строк кода. Я почувствовал себя менеджером, который ставит задачу, а джуниор её выполняет. Только этот джуниор никогда не спит и работает за 10 долларов в месяц».

Глава 18. Stable Diffusion: Почему открытый код побеждает (Скорость и доступность)

Крючок: Ночь, когда всё стало бесплатным

20 августа 2022 года. Обычная суббота. Где-то в мире художники спорят о DALL-E, дизайнеры выпрашивают инвайты в Midjourney, а обычные пользователи просто смотрят на красивые картинки в соцсетях и завидуют.

В этот день небольшая команда из британского стартапа Stability AI публикует в открытом доступе ссылку на GitHub и Hugging Face.

Внутри – веса модели Stable Diffusion. Не демо-версия, не API с ограничениями, не лист ожидания. А полная, готовая к работе модель, которую любой человек с нормальным компьютером может скачать и запустить у себя.

Бесплатно. Навсегда. Без цензуры. Без ограничений.

Интернет взорвался. За первые сутки модель скачали сотни тысяч раз. За неделю – миллионы. Началась эпоха, которую позже назовут «ИИ для народа».

Герои: Сумасшедший немец и британский стартап

У Stable Diffusion необычная родословная.

Технический гений: Патрик Эссер (Patrick Esser).

Немецкий исследователь из Университета Гейдельберга, работавший в компании Runway ML. Он разработал архитектуру модели на основе латентной диффузии (Latent Diffusion Models).

Идея была гениальна: вместо того чтобы обрабатывать миллионы пикселей напрямую (что требует безумных ресурсов), сжать изображение в специальное «латентное пространство» (как в ZIP-архиве), провести там всю магию диффузии, а потом разжать обратно. Это ускорило процесс в разы.

Инвестор-визионер: Эмад Мостак (Emad Mostaque).

Британский предприниматель индийского происхождения, основатель Stability AI. Он увидел потенциал технологии и вложил деньги в то, чтобы превратить исследовательский проект в реальную модель.

Но главное решение Мостака – он настоял на открытости. В то время как OpenAI и Midjourney строили бизнес на дефиците (инвайты, лист ожидания, платный доступ), Мостак решил: «Мы выложим всё бесплатно. Пусть люди делают что хотят».

Конфликт: Закрытые сады против открытой степи

К августу 2022 года рынок генерации изображений выглядел так:

– DALL-E 2 – лучшая в понимании сложных запросов, но доступ строго по листу ожидания. Цензура жёсткая: нельзя генерировать знаменитостей, насилие, политиков.

– Midjourney – красивая, художественная, но работает только через Discord. Нет API, нет локальной версии. Тоже платная подписка.

– Imagen (Google) – ещё даже не выпущена, ходят слухи, что Google боится репутационных рисков и держит модель под замком.

Все эти модели называли «закрытыми садами» (walled gardens). Они красивы внутри, но ты можешь гулять только там, где тебе разрешили.

Stable Diffusion предложила альтернативу: открытая степь. Бери модель, запускай где хочешь, делай что хочешь.

Развязка: Технологический прорыв

Почему Stable Diffusion смогла стать открытой, а другие нет?

1. Лёгкость архитектуры.

Благодаря латентной диффузии, модель была на удивление компактной. Полные веса занимали около 2 гигабайт. Для сравнения: некоторые современные модели занимают сотни гигабайт.

Это означало, что обычный пользователь с игровой видеокартой (от 4—6 ГБ VRAM) мог запустить модель у себя на компьютере. Без интернета. Без отправки данных в облако. Полная приватность.

2. Датасет LAION.

Модель обучали на датасете LAION-5B – огромной коллекции из 5 миллиардов пар «текст-картинка», собранной некоммерческой организацией LAION (German nonprofit). Этот датасет был открытым и доступным для всех.

3. Правильная лицензия.

Stability AI выбрала лицензию, которая позволяла использовать модель для любых целей – включая коммерческие. Ты мог встроить Stable Diffusion в свой стартап, продавать генерации, создавать приложения. И это было легально.

4. Сообщество.

Как только веса упали в открытый доступ, сообщество разработчиков набросилось на них с инструментарием.

Через неделю появились:

– AUTOMATIC1111 Web UI – красивый интерфейс для запуска на домашнем компьютере.

– DreamStudio – официальный веб-интерфейс от Stability AI.

– Десятки форков, модификаций, улучшений.

Через месяц:

– ControlNet – техника, позволяющая контролировать позу, композицию, контуры (открыл китайский исследователь Львмин Чжан).

– LoRA – лёгкий способ дообучать модель на конкретные стили или объекты.

– Тысячи обученных моделей в стилях конкретных художников.

Инсайт: Почему открытый код победил

Закрытые модели (DALL-E, Midjourney) развиваются усилиями одной компании. У них есть одна команда, один план, один бюджет.

Открытая модель развивается усилиями всего мира. Тысячи разработчиков, исследователей, энтузиастов по всему миру:

– Находят баги и чинят их.

– Добавляют новые функции.

– Оптимизируют скорость.

– Создают интерфейсы.

– Обучают специализированные версии.

Эта коллективная мощь оказалась сильнее любого корпоративного бюджета.

Через полгода после релиза экосистема Stable Diffusion превосходила по возможностям любую закрытую модель. Хочешь генерировать аниме? Есть специализированная модель (Anything V3). Хочешь фотореализм? Есть (Realistic Vision). Хочешь контролировать позу? Есть ControlNet.

Midjourney оставалась красивее «из коробки», но гибкость Stable Diffusion сделала её выбором профессионалов.

Тёмная сторона: Цена свободы

Открытость принесла не только благо, но и проблемы.

1. Порнография и дипфейки.

Без цензуры люди начали генерировать всё. Включая порнографию (в том числе с лицами реальных людей) и жестокий контент. Модель стала инструментом для создания нелегальных изображений.

2. Копирование стилей.

Художники обнаружили, что их стиль можно скопировать за минуты, дообучив модель на 20—30 работах. И это легально, потому что модель открытая. Протесты художников против Stability AI были особенно яростными.

3. Политическая пропаганда.

Модель использовали для создания фейковых изображений политиков в компрометирующих ситуациях. Без цензуры остановить это невозможно.

4. Юридические риски.

Stability AI столкнулась с исками от Getty Images и отдельных художников, обвинявших компанию в нарушении авторских прав.

Эмад Мостак на это отвечал: «Мы не можем контролировать, как люди используют открытую технологию. Это как обвинять создателей ножей в том, что кто-то совершил убийство».

Наследие: Новая экосистема

Что оставила нам Stable Diffusion?

1. Демократизация ИИ.

Технология перестала быть привилегией гигантов. Любой стартап, любой энтузиаст может строить на её основе свои продукты.

2. Экосистема инструментов.

ControlNet, LoRA, DreamBooth, тысячи моделей на Civitai – всё это выросло вокруг открытого ядра.

3. Бизнес-модель «открытое ядро».

Stability AI показала, что можно зарабатывать на открытой технологии: продавать облачный доступ (DreamStudio), корпоративные лицензии, поддержку, платные версии для бизнеса.

4. Альтернативный путь развития.

Пока OpenAI и Google спорили об этике и безопасности, открытое сообщество просто делало. И сделало больше и быстрее.

Твой ход: Четыре урока от Stable Diffusion

– Открытость порождает инновации. Когда технология доступна всем, её развитие ускоряется в геометрической прогрессии. Сообщество сильнее любой корпорации.

– Контроль – это иллюзия. Закрытые модели пытаются контролировать, что можно генерировать, а что нет. Но если технология существует, рано или поздно она станет открытой. Лучше учиться жить с этим, чем строить стены.

– Гибкость важнее красоты. Midjourney красивее «из коробки», но Stable Diffusion позволяет сделать что угодно. В долгосрочной перспективе гибкость побеждает.

– Свобода требует ответственности. Открытые технологии дают возможность и для творчества, и для злоупотреблений. Выбор, как их использовать, остаётся за тобой.

P.S.

Знаешь, что сказал Эмад Мостак, когда его спросили, не боится ли он ответственности за дипфейки?

«Я боюсь. Но ещё больше я боюсь мира, где несколько корпораций контролируют всё визуальное творчество человечества. Открытость – единственный способ сохранить свободу».

Глава 19. GPT-4 и мультимодальность: Когда нейросеть видит картинку и понимает юмор

Крючок: Экзамен, который сдала машина

Март 2023 года. Тысячи студентов-юристов по всей Америке в панике. Они готовились годами, платили десятки тысяч долларов за обучение, зубрили кодексы и прецеденты, чтобы сдать унифицированный экзамен на адвокатскую лицензию (Uniform Bar Exam). Это один из самых сложных профессиональных экзаменов в мире. Провал там – это крах карьеры.

И тут OpenAI тихо публикует отчёт. Их новая модель, GPT-4, сдала этот экзамен.

Но не просто сдала. Она вошла в топ-10% лучших результатов. В то время как предыдущая версия, GPT-3.5, плелась в худших 10%.

Разрыв был колоссальным. За один год модель перешла из категории «троечников» в категорию «круглых отличников». Но самое шокирующее было не в этом. Самое шоковое – GPT-4 сдавала экзамен, видя не только текст, но и картинки, диаграммы, скриншоты.

Она смотрела на условия задачи, нарисованные в виде схемы, и выдавала решение. Она анализировала графики, читала подписи к фотографиям, понимала мемы. Это был момент, когда ИИ перестал быть слепым.

Герои: Команда, которая научила ИИ видеть

За GPT-4 стояла всё та же команда OpenAI, которую мы уже хорошо знаем. Но масштаб был совсем иным.

Если GPT-3 (2020) была просто большой языковой моделью (175 миллиардов параметров), которая работала только с текстом, то GPT-4 стала мультимодальной (LMM – Large Multimodal Model). Это означало, что она училась на тексте и на картинках одновременно, связывая слова с визуальными образами.

Точное количество параметров GPT-4 OpenAI держит в секрете (по слухам, больше триллиона), но главное не в размере. Главное – в архитектуре.

Технически GPT-4 работает так: изображение «разбивается» на патчи (кусочки), превращается в последовательность токенов (как слова в тексте), и трансформер (та самая архитектура из главы 13) обрабатывает их вместе с текстовыми токенами. Это позволяет модели «видеть» картинку и «читать» текст одновременно, находя связи между ними.

Конфликт: Почему мультимодальность – это прорыв

Чтобы понять величие момента, нужно вспомнить, как было раньше.

До GPT-4 все языковые модели были слепыми. Они могли читать текст, но если ты загружал картинку – получал ошибку. Чтобы проанализировать изображение, нужно было использовать отдельную модель компьютерного зрения (например, YOLO для распознавания объектов), а потом передавать её результаты языковой модели. Это было медленно, громоздко и неестественно.

Человек так не работает. Когда ты смотришь на мир, твой мозг обрабатывает визуальную и текстовую информацию одновременно. Ты видишь улыбку и слышишь шутку – и понимаешь, что это сарказм. Ты смотришь на график и читаешь подпись к нему – и видишь закономерность.

GPT-4 впервые приблизилась к этому человеческому способу восприятия.

Развязка: Мемы, которые поняла машина

Но самой красивой демонстрацией новых способностей стали не экзамены и не графики. Стали мемы.

OpenAI в своём блоге показала несколько примеров, которые облетели весь мир.

Пример 1: Винтажный iPhone.

На картинке был изображён современный iPhone, подключенный через переходник к огромному старинному монитору с VGA-кабелем. Человеку смешно, потому что это абсурдно: новейший телефон цепляют к древнему монитору через груду переходников. Но поймёт ли это машина?

GPT-4 объяснила: «Юмор изображения проистекает из того, насколько абсурдным оказывается подключение старого массивного разъема VGA к маленькому современному порту зарядки смартфона».

Она поняла не просто объекты (телефон, кабель, монитор). Она поняла контекст – что VGA устарел, что iPhone современен, что их соединение нелепо. Это уже не распознавание образов, это понимание культурного кода.

Пример 2: Гладильная доска на такси.

Другая картинка: мужчина гладит одежду на гладильной доске, прикреплённой к крыше движущегося такси. GPT-4: «Необычность этого изображения в том, что мужчина гладит одежду на гладильной доске, прикрепленной к крыше движущегося такси».

Она поняла абсурд ситуации. Она знает, что такси едет, что гладить на ходу опасно и странно, что это шутка.

Пример 3: Мем про нейросети.

Третий пример был сложнее – мета-мем про сами нейросети. GPT-4 объяснила, что юмор заключается в «контрасте между сложностью и специфичностью подхода к статистическому обучению и простотой и общностью подхода к нейронным сетям».

Она поняла иронию. Она поняла шутку про саму себя.

Инсайт: Что значит «понимать юмор»

Способность понимать юмор – это не просто забавная функция. Это маркер глубинного понимания контекста.

Шутки и мемы построены на:

– Несоответствии ожидаемого и реального.

– Культурных отсылках.

– Иронии и сарказме.

– Игре слов и визуальных метафорах.

Когда модель может объяснить, почему мем смешной, это значит, что она:

– Распознала объекты на картинке.

– Поняла отношения между ними.

– Связала это с внешними знаниями (что VGA – это старый стандарт, что такси не место для глажки).

– Уловила абсурдность ситуации.

Это уже не просто «классификация». Это мышление, пусть и в зачаточной форме.

Исследователи из Университета Джорджа Вашингтона проводили эксперименты: они просили GPT продолжить сложные многоходовые шутки (про кирпич, упавший с самолёта, про слона в холодильнике, про львиную вечеринку). Модель не просто отвечала – она включалась в игру, подыгрывала, развивала сюжет и даже придумывала неожиданные финалы. Это уровень не просто понимания, а соучастия в творчестве.

Триумф: Универсальный помощник

Мультимодальность открыла совершенно новые возможности применения.

1. Помощь незрячим.

Приложение Be My Eyes интегрировало GPT-4. Теперь человек с нарушением зрения может навести камеру телефона на холодильник и спросить: «Что тут есть?». Модель описывает продукты, читает этикетки, помогает ориентироваться в пространстве.

2. Образование и репетиторство.

Студент фотографирует рукописное решение задачи по математике. GPT-4 не просто даёт ответ, а объясняет, где ошибка, и предлагает правильный ход мыслей. Можно показывать ей схемы, графики, чертежи – она всё анализирует.

3. Программирование.

Разработчик показывает GPT-4 скетч интерфейса, нарисованный от руки на салфетке. Модель генерирует HTML, CSS и JavaScript код, который превращает этот скетч в работающий сайт. С нуля, без единой строчки кода, написанной человеком.

4. Анализ данных.

Бизнес-аналитик загружает в модель сложный график с множеством показателей и просит: «Объясни, почему продажи упали в третьем квартале». GPT-4 анализирует визуальные тренды и выдаёт связный отчёт.

5. Медицина.

Врач может показать модели снимок МРТ и попросить описать возможные патологии (конечно, с оговоркой, что окончательный диагноз ставит человек).

Темная сторона: Новые риски

Вместе с новыми возможностями пришли и новые страхи.

1. Приватность.

GPT-4 может распознавать лица и места на фотографиях. Это создаёт огромные риски для конфиденциальности. Если модель видит всё, что ты ей показываешь, кто гарантирует, что эти данные не будут использованы во вред?

2. Предвзятость.

Как и текстовые модели, мультимодальные ИИ впитывают предрассудки из данных. Если интернет полон стереотипных изображений, модель научится их воспроизводить. Это может привести к дискриминации при автоматическом анализе.

3. Галлюцинации.

GPT-4 по-прежнему может уверенно врать. Она может увидеть на рентгеновском снимке то, чего нет, и выдать это за факт. В чувствительных областях (медицина, безопасность) это смертельно опасно.

4. Новые виды мошенничества.

Способность анализировать изображения в реальном времени открывает дорогу для новых схем обмана. Например, подделка документов, создание фейковых видео с «пониманием» контекста.

Послесловие: GPT-4o и «Она»

В мае 2024 года OpenAI сделала следующий шаг – выпустила GPT-4o (omni – «всеохватывающий»).

Эта модель добавила к тексту и изображениям реальное время и голос. Теперь можно говорить с ИИ так, как будто разговариваешь с человеком. Модель видит твоё лицо через камеру, слышит интонации, понимает эмоции и отвечает с естественными паузами, междометиями, смехом.

Создатели не скрывали вдохновения фильмом «Она» (Her), где герой Хоакина Феникса влюбляется в голосового ассистента. Сэм Альтман написал в соцсетях просто: «она».

Голос GPT-4o звучал так естественно, что многие заподозрили, что это запись реальной актрисы. Но это была чистая генерация – с дыханием, смехом, интонациями живой речи.

Твой ход: Четыре урока от GPT-4

– Контекст решает всё. GPT-4 победила не потому, что стала больше, а потому что научилась учитывать больше контекста – визуального, культурного, эмоционального. В твоей жизни тоже: чем больше контекста ты учитываешь, тем точнее твои решения.

– Мультимодальность – это будущее. Мир не разделён на текст и картинки. Всё переплетено. Учись мыслить комплексно, соединять разные типы информации, видеть связи там, где другие видят отдельные факты.

– Юмор – признак интеллекта. Способность шутить и понимать шутки – это не просто развлечение. Это маркер того, что ты улавливаешь неочевидные связи. Развивай в себе чувство юмора – это делает умнее.

– Осторожность не помешает. Чем умнее инструмент, тем опаснее он в плохих руках. Используй силу GPT-4 во благо, помни о приватности и никогда не доверяй слепо – даже самому умному ИИ.

P.S.

Знаешь, что сказал один из пользователей, когда GPT-4 впервые объяснила ему мем?

«Я почувствовал себя так, будто мой пёс вдруг заговорил и рассказал анекдот. Сначала страшно, потом смешно, а потом думаешь: а что ещё он понимает?»

Глава 20. Голосовой клон: Как ИИ научился подражать голосам за 3 секунды

Крючок: Звонок от «дочери»

Январь 2023 года, США. Обычный вечер в семье среднего класса. Мать двоих детей занималась домашними делами, когда зазвонил телефон. На экране высветился незнакомый номер, но женщина ответила – мало ли, вдруг что-то срочное.

В трубке раздался истерический женский плач. Сквозь рыдания она услышала голос своей пятнадцатилетней дочери: «Мама! Мама, помоги! Меня похитили, пожалуйста, сделай, что они говорят!».

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Конец ознакомительного фрагмента
Купить и скачать всю книгу
На страницу:
7 из 7