Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь
Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Полная версия

Гений кода. Истории самых впечатляющих ИИ-проектов, которые уже меняют жизнь

Язык: Русский
Год издания: 2026
Добавлена:
Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
2 из 7

В мире нейросетей роль «эксперта с завязанными глазами» выполняет математический алгоритм. Он не знает, как выглядит идеал, но он знает, как посчитать разницу между тем, что получилось, и тем, что должно было получиться. И он даёт команду: «нейрон №5, увеличь свою чувствительность на 0,001%, а нейрон №6, наоборот, уменьшь». Это называется обратное распространение ошибки.

Метафора четвёртая (и самая простая): Шеф-повар и суп

Самое понятное объяснение того, чем ИИ отличается от обычной программы.

Обычная программа (как повар по книге):

Ты даёшь повару книгу рецептов. Там написано: «Возьми 2 яйца, 100 грамм муки, 50 грамм сахара, взбей, пеки 30 минут». Повар чётко выполняет. Если яйца будут мелкими, пирог может не получиться, но повар сделает всё как написано. Это программирование: ты даёшь правила, компьютер даёт результат.

Нейросеть (как повар, который учится готовить сам):

Ты приводишь повара на кухню и говоришь: «Вот продукты. Я хочу получить вот такой пирог (показываешь картинку идеального торта). Пробуй. Если получится невкусно – я скажу». Повар мешает как попало, печёт, ты пробуешь: «Фу, гадость». Повар меняет пропорции, печёт снова. Ты: «Лучше, но всё сырое внутри». И так 1000 раз. В итоге повар находит идеальную комбинацию, сам, без рецепта. Это обучение: ты даёшь примеры результата, компьютер сам находит правила.

Разрушаем главный миф

После этих метафор ты уже понял главное, но я скажу это прямо:

Нейросеть НЕ думает. Нейросеть НЕ понимает смысла. Нейросеть просто УГАДЫВАЕТ на основе прошлого опыта.

Когда ChatGPT пишет тебе стихи, он не чувствует вдохновения. Он просто перебирает миллиарды комбинаций слов, которые люди уже использовали в похожих ситуациях, и выдаёт самую вероятную.

Это как умный попугай, который слышал столько разговоров, что научился вставлять слова к месту, но понятия не имеет, что они значат.

Итог главы: Словарик для смелых

Теперь, когда мы прошли через метафоры, ты готов к трём терминам, которые будешь встречать в книге. Не пугайся их, за каждым стоит простая картинка из нашей главы.

– Нейросеть (НС) – это просто программа, которая учится на примерах, как ребёнок, а не действует по инструкции.

– Обучение – это процесс «подкручивания настроек» тысячи раз, пока ошибка не станет маленькой (как слепой скульптор).

– Данные – это те самые примеры (фотографии котов, тексты книг, голоса людей), на которых нейросеть учится. Чем больше и качественнее данные – тем умнее сеть.

Вот и всё. Теперь ты знаешь о нейросетях достаточно, чтобы понимать 90% новостей и проектов. Остальное – это просто масштаб (больше слоёв, больше данных, быстрее компьютеры).

А теперь, когда страха нет (мы поняли, что это просто сумасшедший угадайщик), инструменты есть (метод трёх проекций), память готова (мы знаем про истории), и база заложена (нейросеть – это просто сложный калькулятор)…

Мы готовы к настоящим героям!

Следующая глава будет про проект, с которого всё началось. Про студентов, которые перевернули мир компьютерного зрения с двумя видеокартами.

Часть 2: Рождение титанов. Истории прорывов, изменивших правила игры

Глава 5. AlexNet (2012): Как студент победил всех на конкурсе и начал революцию (Компьютерное зрение)

Крючок: Скука, которая изменила мир

Представь себе 2012 год. В мире ещё нет приложений, которые узнают твоё лицо, чтобы разблокировать телефон. Нет фильтров в соцсетях, которые превращают тебя в щенка. Нет машин, которые ездят сами. Если ты хотел, чтобы компьютер что-то увидел, ты должен был объяснить ему это человеческим языком: «Сначала найди края, потом углы, потом проверь, есть ли у этого уши…» Это была муторная работа программистов-ремесленников.

В это время в Торонто, в Университете, сидел аспирант по имени Алекс Крижевский. Он был родом из Украины, учился у гуру нейросетей Джеффри Хинтона и… ему было просто интересно поковыряться с железом. Буквально.

Алекс любил видеокарты. Он знал, что они созданы для игр, чтобы быстро рисовать пиксели, но в глубине души подозревал: эти штуки могут делать не только красивые картинки в Crysis, но и считать. Считать параллельно, быстро, как стая муравьёв.

В 2012 году никто в научном мире всерьёз не использовал GPU (видеокарты) для обучения нейросетей. Все работали на процессорах (CPU). Это было медленно, чинно и благородно. А Алекс взял две игровые видеокарты NVIDIA GTX 580 (каждая стоила около 500 долларов, такие же ставили геймеры для стрелялок), соединил их простым кабелем и сказал: «А давай-ка попробуем скормить им все картинки мира».

Он не знал, что эти две карты, купленные в обычном магазине, станут тем самым «ядерным реактором», который запустит эру современного ИИ.

Герои и их боль: Три мушкетёра глубокого обучения

За этим проектом стояли три человека, и каждый из них – легенда.

– Алекс Крижевский – тот самый парень, который писал код. Но он писал его не на Python, как все сейчас, а на CUDA/C++. Вручную, с нуля. Он создавал механизмы, которые обычно входят в стандартные библиотеки, своими пальцами. Это было безумно сложно, но давало максимальную скорость. Его код был произведением искусства для тех, кто понимает.

– Илья Суцкевер – ещё один аспирант Хинтона, тоже с украинскими корнями. Если Алекс был «инженером», то Илья был «архитектором». Он понимал, как заставить сеть учиться, как подбирать параметры, чтобы она не сходила с ума. Позже Илья станет сооснователем OpenAI и сделает ChatGPT, но пока это был просто талантливый парень, который верил в идею.

– Джеффри Хинтон – «крестный отец» глубокого обучения. Ему было уже под 70. Он всю жизнь, с 70-х годов, доказывал, что нейросети – это будущее, и все эти годы над ним смеялись. Его идеи считались маргинальной ересью. Но он продолжал верить и собрал вокруг себя таких же сумасшедших романтиков, как Алекс и Илья.

Их боль была огромной.

У них не было суперкомпьютера. Не было денег Google. У них были старые видеокарты и данные, которые едва влезали в память. 3 гигабайта памяти на карту – этого катастрофически не хватало, чтобы загрузить всю сеть целиком. Поэтому им пришлось пойти на хитрость: они разрезали нейросеть пополам и положили каждую половину на отдельную карту. Карты общались друг с другом только в самые важные моменты, экономя драгоценные мегабайты.

И вот так, на коленке, с паяльником в душе, они собирали бомбу замедленного действия.

Конфликт: Гонка с ветеранами

В 2012 году прошёл очередной конкурс ImageNet (ILSVRC-2012). Это была Олимпиада в мире компьютерного зрения. Участникам давали 1,3 миллиона фотографий, разбитых на 1000 категорий: от «сиамская кошка» до «стиральная машина». Нужно было научить компьютер угадывать, что на фото.

Лучшие команды мира – исследовательские центры Google, Microsoft, Oxford – бились над этой задачей годами. Они использовали классические методы: люди вручную придумывали признаки объектов (SIFT, HOG), программировали сложные алгоритмы, и те показывали результат. Лучший результат прошлого года был с ошибкой около 26%.

Команда Хинтона (они назвали себя SuperVision) подошла к старту с непонятной для всех штукой под названием «свёрточная нейросеть». Никто не верил, что эти древние концепции могут выиграть у инженерной мысли человечества.

Обучение длилось 5—6 дней. Компьютер гудел, квартира Алекса, видимо, превратилась в сауну. Они наблюдали за цифрами ошибок и не верили своим глазам: сеть училась слишком хорошо.

Развязка: Разрыв шаблона

Когда объявили результаты, академический мир взорвался. SuperVision не просто выиграла. Она уничтожила конкурентов.

– Ошибка лучших традиционных методов: 26,2%.

– Ошибка AlexNet: 15,3%.

Разрыв в почти 11% – это даже не победа, это смена эпох. Это как если бы в забеге спортсменов на стометровку вдруг прилетела ракета. С этого момента стало ясно: старые методы мертвы.

Интересно, что сначала их открытие просто проигнорировали. Ну, подумаешь, очередная нейросеть. Но когда увидели цифры, началась паника и эйфория одновременно.

Инсайт: Что они сделали такого особенного?

Гениальность Алекса, Ильи и Джеффри была не в том, что они придумали что-то космически новое. Они сделали три вещи правильно:

– Масштаб. Они поняли: нейросети работают, если они большие. 60 миллионов параметров (настроек) – это был абсурдный по тем временам объём. Все боялись таких масштабов, а они не побоялись.

– Железо. Они доказали, что видеокарты (GPU) – это новый станок индустрии. Если бы не GTX 580, обучение заняло бы не неделю, а год. Именно эта победа заставила NVIDIA обратить внимание на ИИ. Через несколько лет они станут главным бенефициаром бума нейросетей.

– Трюки против переобучения. Они использовали приём под названием Dropout – во время обучения случайно выключали половину нейронов, чтобы сеть не заучивала картинки наизусть, а училась обобщать. И функцию активации ReLU, которая ускоряла обучение в разы. Эти приёмы стали классикой.

Наследие: Всё пошло отсюда

Та самая архитектура AlexNet (8 слоёв, хитрые свёртки) стала прародительницей всего. Без неё не было бы:

– VGG, ResNet (которые победили в последующие годы).

– Распознавания лиц в iPhone.

– Теслы, которая видит дорогу.

– И даже самого ChatGPT, потому что языковые модели – это наследницы той самой идеи «масштабируем нейросети и кормим их данными».

Ирония судьбы:

После победы они основали компанию DNNResearch. Бизнес-план был простой: «У нас есть гениальный код». Через несколько месяцев Google купил эту компанию за несколько миллионов долларов. Говорят, сумма была около 50 миллионов. Хинтон, Алекс и Илья стали работать на Google.

Кстати, сам исходный код AlexNet десятилетиями считался потерянным. Он лежал в недрах Google, и только в 2024—2025 годах Музей компьютерной истории уговорил корпорацию выложить его на GitHub. Теперь любой студент может скачать код, который перевернул мир.

Твой ход: Три урока от Алекса

Что нам, простым смертным, вынести из этой истории?

– Не жди идеальных условий. У Алекса были две старые видеокарты, а не суперкомпьютер. Он использовал то, что было под рукой. Начни с тем, что у тебя есть.

– Будь на «ты» с инструментом. Алекс писал на CUDA вручную, потому что хотел выжать максимум. Тебе не нужно писать с нуля, но понимать, как работает твой инструмент (библиотеки Python, нейросети) – обязательно.

– Масштабируй гениальность. Идея была не нова. Они просто сделали её больше. Иногда прорыв – это не изобретение велосипеда, а постройка огромного завода по производству велосипедов.

P.S.

Знаешь, что самое крутое? Когда Алекс Крижевский учился, никто не давал ему грантов на «разработку революционного ИИ». Он просто занимался тем, что ему нравилось: ковырялся в коде и видеокартах. И это изменило мир.

Так что, может, твой код, который ты пишешь сегодня ночью на старом ноутбуке, – это AlexNet 2030 года?

Глава 6. DeepMind играет в Atari: Как ИИ научился играть в игры, не зная правил (Reinforcement Learning)

Крючок: Щенок перед телевизором

Представь, что ты принёс в дом маленького щенка. Он ещё ничего не знает. Ты включаешь телевизор, ставишь старую приставку Atari с игрой Breakout (это где нужно отбивать шарик платформой, разбивая кирпичи) и говоришь: «Играй».

Щенок смотрит на экран. Видит движущиеся пиксели. Видит платформу, которую можно двигать. Он не знает правил. Он не знает, что нужно отбивать мяч. Он не знает, что кирпичи нужно разбивать. Он просто тыкает лапой в джойстик.

Сначала он двигает платформу влево, вправо, просто так. Мяч падает. На экране появляется надпись «Game Over». Щенок не понимает, что случилось. Он снова тыкает. Снова мяч падает.

Но через несколько часов происходит чудо. Щенок начинает ловить мяч. Он двигает платформу туда, куда летит шарик. Ещё через несколько часов он не просто ловит, а целится так, чтобы разбить все кирпичи. А через день он находит идеальную стратегию, о которой не догадываются даже люди.

Примерно так в 2013—2015 годах мир наблюдал за тем, как программа DeepMind училась играть в 49 игр Atari, не зная ничего – только глядя на пиксели.

Герой: Вундеркинд с душой геймера

За этим проектом стоит человек с необычной судьбой – Демис Хассабис.

В 4 года он начал играть в шахматы. В 8 лет уже программировал. В 13 лет стал гроссмейстером по шахматам (второй в мире рейтинг в своей возрастной группе). В 17 лет бросил школу, чтобы работать… геймдизайнером. Да-да, он создавал игры. Одна из них – знаменитый симулятор больницы Theme Hospital, где нужно лечить смешных пациентов.

Потом он ушёл в науку, защитил диссертацию по нейробиологии (изучал, как работает память и воображение у людей) и в 2010 году основал компанию DeepMind.

Его гениальность была в синтезе:

– Он понимал, как устроены игры (как геймдизайнер).

– Он понимал, как устроен мозг (как нейробиолог).

– Он понимал, как устроен ИИ (как программист).

И он задал вопрос: «А что, если заставить компьютер учиться так же, как учится ребёнок? Не по правилам, а методом проб и ошибок?»

Конфликт: Как научить тому, чему сам не знаешь

До DeepMind все игры, в которые выигрывал компьютер, были «заточены» под конкретную задачу. Deep Blue обыграл Каспарова, но не умел играть даже в крестики-нолики. Это были узкие специалисты.

Хассабис хотел создать общий интеллект – программу, которая сможет научиться чему угодно, просто глядя на экран.

Но как это сделать? Если ты учишь нейросеть распознавать котов, ты показываешь ей котов и говоришь: «Вот кот, молодец». А здесь нет правильных ответов. Есть только экран, джойстик и счёт в углу. Ты даже не знаешь, какой ход правильный, потому что результат может наступить через 1000 шагов.

Представь, что ты учишь кого-то играть в шахматы, но не говоришь правила и не показываешь, как ходят фигуры. Ты просто даёшь джойстик и говоришь: «Смотри на экран и крути. Если в конце счёт вырастет – значит, ты делал что-то правильно». Как тут вообще можно чему-то научиться?

Развязка: DQN – игрок, который запоминает сны

Команда DeepMind придумала элегантное решение. Они создали систему под названием Deep Q-Network (DQN).

В ней было три гениальных компонента.

Компонент 1: Глаза (Свёрточная нейросеть).

Как и в AlexNet, DQN использовала нейросеть, которая смотрела на пиксели. Она училась распознавать на экране важные объекты: мяч, платформу, кирпичи, врагов. Это был её «зрительный котелок».

Компонент 2: Инстинкт (Q-learning).

Второй компонент – это математический метод, который оценивал, насколько хорошо совершить то или иное действие в данной ситуации. Скажем, если мяч летит влево, то нажать «влево» – это хорошо (+10 баллов к будущей победе), а нажать «вправо» – глупо (-100 баллов). Нейросеть училась предсказывать эту «ценность» каждого действия.

Компонент 3: Память снов (Experience Replay).

Это был главный трюк. Обычно, когда мы учимся, мы учимся на последовательности событий. Но в играх события сильно связаны: 100 кадров подряд мяч просто летит. Если учиться на этом, нейросеть «зациклится» и будет думать, что мир всегда такой.

DeepMind придумали гениально простую вещь: они заставили программу запоминать свой игровой опыт (действие, ситуацию, награду) в специальный «буфер памяти». А потом, во время обучения, они не кормили её последними кадрами, а случайно выбирали кусочки из всей памяти.

Это как если бы ты учился играть на гитаре не просто повторяя одно и то же упражнение, а вспоминая все свои попытки за месяц – и удачные, и провальные – и анализируя их вперемешку. Мозг так не делает, но для машины это оказалось секретом успеха.

Инсайт: Момент, когда мир ахнул

В 2013 году DeepMind показала первые результаты на семи играх. В 2015 году вышла статья в журнале Nature про 49 игр. Результаты были сенсационными.

– Breakout (Арканоид): Сначала программа играла хуже ребёнка. Через 2 часа – как средний игрок. Через 4 часа она нашла идеальную стратегию: пробить дыру в боку, загнать мяч за стену кирпичей и дать ему там летать, снося всё подряд. Люди до этого додумывались не сразу.

– Pong (теннис): Обыграла человека всухую.

– Space Invaders: Набрала в 2—3 раза больше очков, чем профессиональный игрок.

– Video Pinball (пинбол): Превысила человеческий результат в 200 раз.

Из 49 игр DQN показала результат лучше предыдущих алгоритмов в 43 играх, а в половине случаев играла лучше человека.

Куда не дотянулся гений

Конечно, были и провалы. Самая знаменитая игра, в которой DQN опозорилась, – Montezuma’s Revenge («Месть Монтесумы»).

Это бродилка, где нужно собирать ключи, открывать двери, избегать ловушек. Награда (очки) выпадает очень редко – только когда ты нашёл сокровище в конце уровня. Между первым шагом и наградой – сотни действий. Нейросеть не могла понять, какое именно действие привело к успеху. Она просто тыкалась как слепая и умирала.

Это показало важную вещь: DQN отлично работает там, где награда частая и понятная, но пасует перед долгосрочным планированием. (Эту проблему потом будут решать другие архитектуры).

Сделка века: Google платит 650 миллионов

Самое забавное в этой истории – как DeepMind купили.

В 2014 году, ещё до публикации в Nature, Хассабис пришёл на переговоры с Google. Он показал демо: программа играет в Breakout, сама учится, находит стратегии.

Ларри Пейдж (сооснователь Google) смотрел и не мог поверить своим глазам. Он понял, что это не просто игра. Это технология, которая может оптимизировать всё: от охлаждения дата-центров до показа рекламы.

Google купила DeepMind за 400 миллионов фунтов стерлингов (около 650 миллионов долларов). Для компании, у которой не было готового продукта, а были только идеи и пара статей, это было невероятно.

Наследие: От Atari к AlphaGo и дальше

Именно технология DQN стала фундаментом для всего будущего DeepMind:

– AlphaGo (2016), обыгравшая чемпиона мира по го, использовала те же принципы обучения с подкреплением, только усложнённые.

– AlphaFold, решившая задачу сворачивания белков, тоже наследница этой философии.

– Оптимизация серверов Google: DQN научили экономить электроэнергию на охлаждении (об этом будет отдельная глава).

Твой ход: Чему нас учит история с приставкой

– Награда должна быть понятной. Если ты хочешь чему-то научиться (или научить нейросеть), нужна частая и честная обратная связь. Без неё даже гений заблудится, как в Montezuma’s Revenge.

– Ошибки – это опыт. Метод «воспроизведения опыта» (Replay) – гениальная метафора для жизни. Иногда полезно не просто мчаться вперёд, а остановиться, вспомнить свои прошлые действия (и удачные, и нет) и понять, что сработало, а что нет.

– Синтез – сила. Хассабис победил не потому, что был лучшим программистом, а потому что понимал игры, мозг и математику одновременно. Самые крутые прорывы случаются на стыке дисциплин.

P.S.

Знаешь, что сказал Демис Хассабис, когда его спросили, зачем он учит ИИ играть в игры?

«Игры – это идеальная песочница для интеллекта. Если мы научимся создавать интеллект в игре, мы сможем применить его в реальности: в медицине, энергетике, науке».

Оказалось, он не шутил.

Глава 7. AlphaGo и матч с Ли Седолем: «Божественный ход», который потряс человечество

Крючок: 15 секунд, изменивших всё

9 марта 2016 года, Сеул. В конференц-зале отеля «Фор Сизонс» тишина, которую нарушает только стук камней о деревянную доску. За столом сидит Ли Седоль – легенда, 18-кратный чемпион мира по игре Го, живое национальное достояние Кореи. Напротив него – пустота. Только камера, направленная на доску, и динамик, через который транслируются ходы соперника.

Соперник – программа AlphaGo, созданная британской компанией DeepMind, которую недавно купил Google.

Идёт вторая партия. Счёт 0:1 в пользу AlphaGo – Ли Седоль уже проиграл первую партию, что само по себе было шоком. Но сейчас, на 37-м ходу второй партии, происходит нечто странное.

AlphaGo делает ход. Камень ложится в точку, которую комментаторы называют «невозможной». Один из профессиональных игроков, комментирующий матч в прямом эфире, говорит: «Это ошибка. Программа сломалась. Так не ходят люди».

Ли Седоль на мгновение замирает. Ему нужно принять решение. Он не знает, что этот ход войдёт в историю под именем «Божественный ход». Он не знает, что этот момент изменит всё.

Он выходит из зала покурить. Ему нужно подумать.

А в это время по всему миру трансляцию смотрят миллионы людей, и никто ещё не понимает: они стали свидетелями момента, когда машина сделала то, что не мог сделать ни один человек за тысячелетия игры.

Герой: Последний бастион человеческого разума

Чтобы понять драму, нужно понять, что такое игра Го.

Го – это древняя китайская игра, которой больше 2500 лет. Правила просты: два игрока ставят чёрные и белые камни на пересечения линий, пытаясь окружить территорию. Но сложность этой игры – космическая.

В шахматах после каждого хода есть около 35 вариантов. В Го – 250 вариантов. Количество возможных позиций в Го больше, чем количество атомов во Вселенной. Тысячелетиями считалось, что машина никогда не сможет обыграть человека в Го, потому что здесь нужна не просто сила перебора, а интуиция. Чувство красоты. Понимание формы.

Ли Седоль был воплощением этой интуиции. Он стал профессионалом в 12 лет. Он выигрывал всё, что можно. В Корее его боготворили. Когда стало известно о матче с программой, он был уверен в победе. «Я выиграю 5:0 или 4:1», – сказал он перед началом. «Люди интуитивно чувствуют игру, а машина – нет».

Он не знал, что через несколько дней будет плакать.

Конфликт: Две философии интеллекта

AlphaGo, созданная командой Демиса Хассабиса (того самого, что играл в Atari), была принципиально новой машиной. Она не была «запрограммирована» на игру в Го. Её учили по-другому.

Как учили AlphaGo:

– Сначала она смотрела на людей. Ей скормили 30 миллионов ходов, сделанных профессиональными игроками. Она училась предсказывать: «Если позиция такая, то человек скорее всего сходит сюда». Это называется обучение с учителем. Она впитала всю мудрость человечества за 2500 лет.

– Потом она начала играть сама с собой. Миллионы партий, днём и ночью, без остановки. Она играла с копией себя, училась на своих ошибках, находила новые стратегии, которые никогда не приходили в голову людям. Это называется обучение с подкреплением.

– У неё были две нейросети внутри. Одна – «Политика» – предлагала, куда сходить. Вторая – «Ценность» – оценивала, насколько хороша позиция в долгосрочной перспективе. Они спорили друг с другом, и рождалась истина.

К марту 2016 года AlphaGo сыграла сама с собой столько партий, сколько человек не сыграет за миллион лет.

Развязка: Пять партий, потрясших мир

Матч из пяти партий транслировался на видеохостинге. Комментаторами были профессиональные игроки Го. Зрителями – весь мир.

Партия 1: Шок

На страницу:
2 из 7