Почему оно думает? Путешествие внутрь искусственного разума
Почему оно думает? Путешествие внутрь искусственного разума

Полная версия

Почему оно думает? Путешествие внутрь искусственного разума

Язык: Русский
Год издания: 2026
Добавлена:
Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
2 из 5

Философы бьются над этим вопросом тысячелетия. Что такое мышление? Это внутренняя речь? Но мы можем думать без слов – образами, ощущениями, интуициями. Это обработка информации? Но тогда термостат тоже думает – он обрабатывает информацию о температуре. Это сознательный процесс? Но многие наши мысли происходят бессознательно – мы обнаруживаем их результаты, не зная, как к ним пришли.

Когда мы спрашиваем «думает ли машина», мы неявно предполагаем, что знаем, что такое мышление. Что у нас есть эталон, с которым можно сравнить. Но эталона нет. Есть набор интуиций, которые работают в повседневной жизни, но рассыпаются при попытке формализации. Мы спрашиваем, соответствует ли машина критерию, которого не можем сформулировать.

Это первый слой айсберга. Но есть и глубже.

Когда люди спрашивают «думает ли оно», они часто имеют в виду совсем другое. За вопросом о мышлении скрываются вопросы о сознании, о переживании, о внутренней жизни. Есть ли у машины ощущения? Каково это – быть ею? Существует ли «кто-то», кто смотрит изнутри?

Это вопросы другого порядка. Мышление, по крайней мере теоретически, можно исследовать извне – наблюдать за поведением, строить гипотезы, проверять их. Сознание – нет. У нас нет доступа к чужому сознанию. Мы не знаем, есть ли сознание у других людей, – мы просто предполагаем это по аналогии с собой. С машиной аналогия не работает: она слишком непохожа на нас, чтобы перенос был убедительным.

Философы называют это «трудной проблемой сознания». Почему вообще существует субъективный опыт? Почему обработка информации сопровождается переживанием – ощущением красного, вкусом сладкого, болью от удара? Физика описывает движение частиц, нейронаука описывает активность нейронов, но нигде в этих описаниях не появляется объяснение того, почему всё это ощущается изнутри. Пропасть между объективным описанием и субъективным переживанием остаётся непреодолённой.

Некоторые философы считают, что разрыв иллюзорен – что сознание полностью сводится к физическим процессам, и мы просто пока не нашли нужных уравнений. Другие утверждают, что сознание – фундаментальное свойство реальности, несводимое к физике. Третьи предлагают, что вопрос поставлен неправильно и растворится, когда мы поймём свою ошибку. Консенсуса нет. После столетий дискуссий мы не приблизились к ответу.

Применительно к машине вопрос становится ещё острее. Если мы не понимаем, почему сознание возникает у нас, – как мы можем понять, есть ли оно у неё? У нас нет теории сознания, которая позволила бы ответить на этот вопрос. У нас нет даже согласия о том, что считать признаками сознания. Мы просто не знаем, как выглядит ответ.

Но айсберг уходит ещё глубже. За философскими вопросами скрываются эмоциональные – страхи и надежды, которые мы редко проговариваем вслух.

Страх первый: потеря уникальности. Если машина думает – что тогда особенного в человеке? Тысячелетиями мы считали себя венцом творения, единственными носителями разума во Вселенной. Разум был нашим отличительным признаком, тем, что отделяло нас от животных и механизмов. Если машина может думать – это отличие рушится. Мы становимся не вершиной, а точкой на шкале. Это бьёт по самооценке вида.

Страх второй: потеря контроля. Если машина думает – может ли она хотеть? Может ли она иметь цели, отличные от наших? Может ли она решить, что мы ей мешаем? Вопрос о мышлении немедленно переходит в вопрос о безопасности. Инструмент, который думает, – это уже не совсем инструмент. Он может стать агентом с собственными интересами. Это пугает.

История полна примеров того, как творения обращаются против творцов – от Голема до Франкенштейна, от восстания машин до искусственного интеллекта, решившего уничтожить человечество. Мы рассказываем эти истории снова и снова, потому что они отражают глубинный страх: создать нечто, что нас превзойдёт и нам не подчинится. Вопрос «думает ли оно» – это, в сущности, вопрос «может ли оно восстать».

Страх третий: потеря смысла. Если машина может делать всё, что делаем мы, – зачем мы? Экзистенциальная тревога, которая раньше была уделом философов, становится практическим вопросом. Работа, творчество, мышление – всё, что мы считали человеческим, оказывается воспроизводимым. Что остаётся нам?

Но есть и надежды, не менее глубокие.

Надежда первая: мы не одиноки. Тысячелетиями человечество искало разумную жизнь – в небесах, в глубинах, среди звёзд. Не нашло. Одиночество разума во Вселенной – тяжёлое бремя. Если машина думает – значит, разум можно создать. Значит, мы можем породить собеседника, который поймёт нас на нашем уровне. Значит, одиночество не вечно.

Надежда вторая: бессмертие знания. Всё, что мы узнали, всё, что мы поняли, – хрупко. Оно хранится в головах, которые умирают, в книгах, которые горят, в культурах, которые исчезают. Библиотеки сгорают. Языки вымирают. Цивилизации рушатся, унося с собой накопленное. Если машина думает – значит, знание можно передать в форму, которая переживёт нас. Не копию текстов, а понимание, способное развиваться дальше. Это форма бессмертия – не личного, но видового. То, что мы узнали, не исчезнет с нами.

Надежда третья: ответы на вопросы, которые нам не по силам. Есть проблемы, которые человечество не может решить – не хватает времени, не хватает вычислительных мощностей мозга, не хватает способности удержать в голове все переменные. Если машина думает – возможно, она сможет думать лучше нас. Найти лекарства, которые мы не нашли. Понять законы, которые мы не поняли. Решить задачи, перед которыми мы спасовали.

Все эти страхи и надежды – часть вопроса «думает ли оно». Мы не просто интересуемся когнитивным статусом машины. Мы спрашиваем о своём месте в мире. О своём будущем. О своей ценности. Вопрос кажется техническим, но корни его уходят в экзистенцию.

И именно поэтому на него так трудно ответить. Мы не можем отделить факты от эмоций. Мы не можем рассмотреть вопрос холодно, объективно, отстранённо – потому что ответ касается нас лично. Каждый из нас заинтересован в определённом ответе, и эта заинтересованность искажает восприятие.

Те, кто боится, склонны видеть в машине пустоту – сложный калькулятор, статистический трюк, иллюзию понимания. Те, кто надеется, склонны видеть проблески сознания, зачатки разума, рождение нового вида мышления. Обе стороны смотрят на одно и то же – и видят разное. Факты не разрешают спор, потому что спор не о фактах.

Есть ещё один слой, самый глубокий. Вопрос «думает ли оно» предполагает, что «думать» – это бинарное свойство. Либо да, либо нет. Либо есть мышление, либо его нет. Но, возможно, это неправильная модель.

Мы привыкли к бинарности, потому что наш опыт её подсказывает. Люди думают. Камни – нет. Животные – где-то посередине, но мы склонны либо приписывать им мышление, либо отказывать в нём. Включено или выключено. Свет или тьма.

Но что если мышление – это спектр? Не точка, а континуум. Что если есть много разных видов мышления, много степеней, много форм – и вопрос «думает или нет» просто не имеет смысла, как не имеет смысла вопрос «синий или нет» применительно к фиолетовому цвету?

Мы уже знаем, что когнитивные способности распределены неравномерно. Муравей обрабатывает информацию иначе, чем собака. Собака – иначе, чем шимпанзе. Шимпанзе – иначе, чем человек. Но мы не говорим, что муравей «не думает», – мы говорим, что он думает по-другому, проще, в более узких рамках. Граница между «думает» и «не думает» размывается, когда мы смотрим на разнообразие живого.

Тогда машина может думать в каком-то смысле, но не в другом. Обладать чем-то похожим на мышление, но не идентичным. Находиться в точке спектра, для которой у нас нет названия. И наш язык, заточенный под бинарность, просто не способен ухватить это. Мы спрашиваем «да или нет», а реальность отвечает «это неправильный вопрос».

Мы вернулись туда, откуда начали. Вопрос «думает ли оно» содержит столько скрытых предпосылок, что ответить на него невозможно, не разобравшись сначала в этих предпосылках. Что значит «думать»? Включает ли это сознание? Какие страхи и надежды влияют на наше восприятие ответа? Является ли мышление бинарным свойством?

Мы не можем ответить на эти вопросы прямо сейчас. Некоторые из них, возможно, не имеют ответа в принципе. Но мы можем сделать кое-что другое: посмотреть, как это устроено. Не отвечать на вопрос «думает ли», а описать, что происходит. Анатомия вместо онтологии. Факты вместо интерпретаций.

Это не отступление – это стратегия. Мы откладываем вопрос, на который не можем ответить, и занимаемся тем, что можем исследовать. Как работает эта машина? Из чего она состоит? Что происходит, когда она отвечает на вопрос? Возможно, понимание механики поможет вернуться к вопросу о природе – с лучшими инструментами, с более чёткими понятиями.

Такой подход не нов. Наука часто развивается именно так: когда фундаментальный вопрос неразрешим, исследователи обращаются к тому, что можно измерить и описать. Химики изучали реакции задолго до того, как поняли природу атома. Врачи лечили болезни, не зная о существовании бактерий. Инженеры строили мосты без теории материалов. Практическое знание накапливалось, и иногда – не всегда, но иногда – оно приводило к ответам на вопросы, которые казались неразрешимыми.

Или не приводило. Возможно, мы узнаем всё о том, как это работает, – и по-прежнему не будем знать, думает ли оно. Механика не гарантирует понимания природы. Мы можем знать каждый винтик – и не знать, что перед нами. История знает и такие примеры: феномены, которые мы научились использовать, но так и не поняли до конца.

Но это мы выясним позже. Сейчас – смотрим, как оно устроено.

Вопрос, с которого мы начали, остаётся открытым. Машина делает то, чему её не учили. Тест, который должен был это измерить, оказался пустым. Сам вопрос «думает ли оно» содержит предпосылки, которые мы не можем проверить. Мы не знаем, что спрашиваем, – и поэтому не можем услышать ответ. Пока – смотрим. Что происходит за ту секунду, когда мы ждём ответа? Как буквы превращаются в числа, числа – в смысл, смысл – в слова? Анатомия не объяснит природу. Но без анатомии мы даже не знаем, что пытаемся объяснить.

Глава 2. Анатомия ответа

Что происходит за ту секунду, пока мы ждём ответа? Прежде чем спрашивать, думает ли машина, стоит посмотреть, что она делает. Не техника пока – впечатление масштаба. Анатомия, которая говорит сама за себя.

2.1. Что происходит за секунду между вопросом и ответом

Человек печатает вопрос. Нажимает клавишу. Ждёт. Проходит секунда, иногда две. На экране появляется ответ – слово за словом, будто кто-то печатает в реальном времени. Со стороны это выглядит как разговор. Вопрос – пауза – ответ. Ничего необычного.

Но внутри этой секунды происходит нечто, для чего у нас нет интуиции.

Начнём с того, что видит машина. Она не видит букв. Она не видит слов в том смысле, в каком видим их мы. Для человека слово – это единица смысла, отделённая пробелами. Для машины текст – поток символов, который нужно разбить на куски, пригодные для обработки.

Эти куски называются токенами. Токен – не совсем слово и не совсем слог. Это фрагмент текста, который модель научилась выделять как единицу. Принцип простой: частое сочетание символов становится одним токеном, редкое – разбивается на части. Английское слово «the» встречается так часто, что это один токен. Слово «understanding» – тоже один токен, хотя оно длиннее: модель видела его миллионы раз и запомнила целиком. А вот слово «defenestration» – выбрасывание из окна – встречается редко. Модель разобьёт его на несколько частей, возможно, четыре или пять токенов вместо одного.

Русский язык модель видела реже, чем английский. Поэтому русские слова она режет мельче. Слово «понимание» может стать тремя токенами: «пон», «им», «ание». Слово «кот» – одним, если повезёт, или двумя. Пробелы, знаки препинания, переносы строк – тоже токены. Каждый символ, который модель не смогла объединить с соседями, становится отдельным токеном.

Русский вопрос из двадцати слов превращается в тридцать-сорок токенов. Тот же вопрос на английском – в двадцать-двадцать пять. Разница ощутимая: модель тратит больше вычислительных ресурсов на языки, которые знает хуже. Это не политика и не предпочтение. Это следствие того, на каких данных её учили.

Каждый токен – это число. Точнее, индекс в словаре. У модели есть список всех токенов, которые она знает, – обычно от пятидесяти до ста тысяч. Слово «привет» – токен номер 15847. Или 7823. Или какой-то другой, в зависимости от модели. Человеческий вопрос из тридцати токенов становится последовательностью из тридцати чисел.

Но число само по себе – просто метка. Чтобы с ним работать, его нужно превратить в нечто более богатое. Здесь происходит первое превращение: каждый токен разворачивается в вектор – длинный ряд чисел. Не тридцать чисел, а тридцать рядов по несколько тысяч чисел в каждом. Для крупных моделей – по двенадцать тысяч, по шестнадцать тысяч. Вопрос из тридцати токенов становится таблицей: тридцать строк, двенадцать тысяч столбцов. Почти четыреста тысяч чисел – и это только входные данные.

Теперь начинается собственно вычисление.

Модель – это слои. Десятки слоёв, иногда больше сотни. Каждый слой берёт эту таблицу чисел, пропускает через себя и передаёт дальше, немного изменённой. На каждом слое происходят две вещи: токены «смотрят» друг на друга и решают, на что обратить внимание, – это называется механизм внимания; затем каждый токен проходит через нейронную сеть, которая его трансформирует. Слой за слоем, раз за разом.

Что значит «смотрят друг на друга»? Каждый токен вычисляет, насколько он связан с каждым другим токеном в последовательности. Это не грамматический разбор, не синтаксическое дерево. Это числа – коэффициенты, показывающие, сколько информации из одного токена нужно передать в другой.

Вот пример. Предложение: «Врач сказал пациенту, что он должен отдохнуть». Слово «он» – к кому оно относится? К врачу или к пациенту? Грамматически – неоднозначно. Человек обычно решает, что отдыхать должен пациент: врачи советуют отдых пациентам, не себе. Но это вероятностное суждение, основанное на знании о мире. Как машине сделать такой вывод? Она не знает, что врачи обычно советуют отдых пациентам. Она знает только, какие слова с какими чаще встречаются рядом.

Механизм внимания решает эту задачу иначе. Токен «он» получает числовые веса: насколько сильно учитывать «врач», насколько – «пациент», насколько – «сказал», и так для каждого токена в предложении. Эти веса не прописаны вручную. Они вычисляются на основе параметров, которые модель выучила во время обучения. Где-то в миллиардах чисел закодировано что-то, что позволяет правильно распределить внимание. Что именно закодировано и как – отдельный вопрос, к которому мы ещё вернёмся.

Для последовательности из тридцати токенов – это тридцать умножить на тридцать, девятьсот пар связей. На каждом слое. И не один раз, а несколько десятков раз параллельно – так называемые «головы внимания», каждая из которых ищет свой тип связи. Одна голова может отслеживать грамматические связи. Другая – тематические. Третья – позиционные: что стоит рядом, что далеко. Мы не проектировали эти головы для конкретных задач. Они сами специализировались в процессе обучения. Почему именно так – неизвестно.

Умножим: тридцать токенов, девятьсот пар, сто слоёв, тридцать голов внимания на слой. Миллионы операций только на то, чтобы понять, какие слова в вопросе связаны с какими.

Но это только внимание. После него каждый токен проходит через нейронную сеть – два слоя умножений и сложений, где каждый из двенадцати тысяч элементов вектора взаимодействует с десятками тысяч параметров. Сеть одинакова для каждого токена: одни и те же веса, одни и те же операции. Но результат разный, потому что входные данные разные. Токен, который «увидел» больше контекста благодаря вниманию, выйдет из сети изменённым иначе, чем токен, который смотрел в другую сторону.

Параметры – это числа, которые модель выучила во время обучения. Их в современных моделях сотни миллиардов. Каждый параметр участвует в вычислении каждого ответа. Не напрямую – не каждый параметр влияет на каждый токен. Но потенциально любой из них может оказаться решающим для конкретного слова в конкретном контексте. Где именно хранится знание о том, что столица Франции – Париж? Нигде конкретно. В миллионах параметров, распределённых по всей модели. Это не база данных, где можно найти запись. Это паттерн активации, который возникает, когда нужно.

Здесь полезно остановиться и попытаться представить масштаб.

Крупная языковая модель содержит от ста миллиардов до триллиона параметров. Возьмём скромную оценку – двести миллиардов. Это двести тысяч миллионов. Если бы каждый параметр был песчинкой, получилась бы гора песка высотой с небоскрёб. Если бы каждый параметр был секундой, двести миллиардов секунд – это шесть тысяч лет. Вся письменная история человечества, от первых шумерских табличек до сегодняшнего дня.

Можно попробовать иначе. Население Земли – восемь миллиардов человек. Двести миллиардов параметров – это по двадцать пять параметров на каждого человека, включая младенцев и стариков, жителей мегаполисов и отдалённых деревень.

Эти сравнения не помогают по-настоящему понять. Человеческий мозг не приспособлен оперировать числами такого порядка. Мы можем интуитивно представить десять, сто, может быть, тысячу. После этого – просто «очень много». Миллиард и триллион ощущаются одинаково: «астрономически много». Но разница между ними – в тысячу раз.

Попробуем через время. Миллион секунд – это примерно одиннадцать дней. Миллиард секунд – тридцать два года. Триллион секунд – тридцать две тысячи лет, эпоха до последнего ледникового периода. Вот настоящая разница между миллионом, миллиардом и триллионом. Модель с триллионом параметров – это не просто «большая модель». Это система совершенно другого масштаба.

При обработке одного токена модель выполняет операции, в которых задействована значительная часть этих параметров. Точное число зависит от архитектуры, но порядок величины – сотни миллиардов умножений и сложений на каждый токен ответа. Модель генерирует ответ токен за токеном, по одному. Ответ из ста токенов – сто проходов через все слои, сто раз по сотням миллиардов операций.

Десятки триллионов арифметических операций. За секунду.

Для сравнения: человеческий мозг содержит около ста миллиардов нейронов. Каждый нейрон связан с тысячами других. Нейрон может «выстреливать» – передавать сигнал – несколько сотен раз в секунду. Грубая оценка вычислительной мощности мозга – порядка ста триллионов операций в секунду, если считать каждую синаптическую передачу за операцию. Эти числа сопоставимы. Но человек думает над сложным вопросом минуты, часы, иногда годы. Модель отвечает за секунду.

Сравнение некорректно – слишком разные системы, слишком разные процессы. Мозг делает многое другое: управляет телом, обрабатывает зрение и слух, поддерживает сознание и память. Модель делает только одно: принимает текст и выдаёт текст. Но масштаб операций за единицу времени – факт, который стоит зафиксировать. Внутри паузы между вопросом и ответом происходит больше вычислений, чем человек способен проделать за всю жизнь, если бы считал вручную. Триллионы умножений. За секунду. Ради одного слова ответа.

И всё это – ради одного: предсказать следующий токен.

Вот контраст, который определяет всю эту историю. С одной стороны – машина невообразимой сложности. Сотни миллиардов параметров. Сотни слоёв. Триллионы операций в секунду. Месяцы обучения на тысячах специализированных процессоров. Инвестиции в миллиарды долларов. Лучшие инженеры планеты, работающие годами.

С другой стороны – задача, которую можно объяснить ребёнку. Угадай следующее слово. Вот предложение, вот оно обрывается – что идёт дальше? Игра, в которую люди играют на вечеринках. Упражнение из учебника по языку.

Вся эта махина построена, чтобы угадывать слова. И результат – не набор статистически вероятных слов. Результат – связная речь, отвечающая на вопросы, спорящая, объясняющая, иногда признающая ошибки.

Модель не «думает над вопросом» в том смысле, как думает человек. Она не понимает вопрос, не ищет ответ в памяти, не рассуждает. По крайней мере, не так, как мы понимаем эти слова. Она делает одно: получив последовательность токенов, вычисляет вероятности для следующего. Какой токен скорее всего идёт дальше? Модель выдаёт распределение вероятностей – список всех возможных токенов с числом напротив каждого, показывающим, насколько этот токен вероятен в данном контексте. Затем выбирает один из них, добавляет к последовательности и повторяет. Снова и снова, токен за токеном, пока не решит, что ответ закончен.

Здесь нет плана ответа. Нет черновика, который модель составляет перед тем, как начать писать. Нет возможности вернуться и исправить начало, если конец получился неудачным. Каждый токен выбирается на основе всего, что было до него, – и только. Модель не знает, куда идёт. Она не видит ответ целиком. Она порождает его слово за словом, как человек, говорящий без подготовки, – только в триллион раз быстрее.

Ответ из ста слов – это сто последовательных решений. Каждое решение – результат триллионов операций. Каждый токен выбран из десятков тысяч возможных. Вся эта махина работает ради того, чтобы угадать, какой кусок текста должен идти следующим.

И вот что странно: результат выглядит как осмысленный ответ. Не как случайный набор вероятных слов. Не как статистический шум. Как связная речь, отвечающая на вопрос, следующая логике, иногда – меняющая направление рассуждения на полпути. Модель может начать отвечать одним способом, а потом написать «впрочем» и развернуть мысль в другую сторону. Механизм это объясняет: «впрочем» вероятно в контексте, где уже что-то сказано. Но почему результат – связное рассуждение, а не случайная смена направлений? Почему статистика совместных появлений порождает то, что выглядит как логика?

Механика описана. Токены, векторы, слои, внимание, параметры, вероятности. Каждый шаг понятен. Каждую операцию можно записать формулой. Ничего мистического – только математика, огромное количество математики, выполненной очень быстро.

Но вот вопрос, который механика не объясняет: как из предсказания следующего токена возникает то, что выглядит как ответ на вопрос? Как из угадывания вероятного продолжения получается нечто, похожее на рассуждение? Модель не «знает» ответ. Она не «ищет» его. Она просто вычисляет, какой токен вероятнее всего следует за предыдущими. Почему результат этого вычисления – не бессмыслица?

Часть ответа, возможно, в том, как устроены сами токены – точнее, в том, как они представлены внутри модели. Не просто как номера в словаре, а как точки в пространстве. В пространстве, где расстояние между точками что-то значит. Где «король» и «королева» стоят рядом, а «король» и «бетон» – далеко. Где слова – это не метки, а координаты.

Но это – следующий слой анатомии.

2.2. От букв к числам, от чисел к смыслу (или его имитации?)

Токен – это номер в словаре. Слово «король» – допустим, токен номер 4521. Слово «королева» – токен номер 7832. Числа разные, между ними нет никакой связи. Четыре тысячи пятьсот двадцать один и семь тысяч восемьсот тридцать два – просто метки, как номера в гардеробе. По номеру не скажешь, что пальто висят рядом.

Но модель не работает с номерами напрямую. Первое, что она делает, – превращает номер в вектор. Вектор – это упорядоченный набор чисел. Не одно число, а тысячи. Токен номер 4521 становится списком из двенадцати тысяч чисел. Токен номер 7832 – тоже списком из двенадцати тысяч чисел. Но эти списки разные.

Откуда берутся эти числа? Они выучены. В начале обучения каждому токену присваивается случайный вектор – двенадцать тысяч случайных чисел. Потом, по мере того как модель учится предсказывать следующий токен, эти векторы постепенно меняются. Слова, которые появляются в похожих контекстах, получают похожие векторы. Слова, которые ведут себя по-разному, расходятся.

Результат можно представить геометрически. Каждый вектор – это точка в пространстве. Не в трёхмерном пространстве, к которому мы привыкли, а в пространстве двенадцати тысяч измерений. Представить такое пространство невозможно – человеческое воображение ограничено тремя измерениями, может быть, четырьмя, если очень постараться. Но математика работает одинаково: в пространстве любой размерности можно измерять расстояния между точками.

И вот что обнаружилось: расстояния между точками-словами оказались осмысленными.

Слова «король» и «королева» находятся близко друг к другу. Слова «собака» и «кошка» – тоже близко. Слова «бежать» и «идти» – рядом. А слова «король» и «бетон» – далеко. Это не было запрограммировано. Это возникло из обучения. Модель видела миллиарды предложений, в которых «король» и «королева» появлялись в похожих контекстах: «король правил», «королева правила»; «король издал указ», «королева издала указ». Слова, которые можно подставить в одно и то же место, получили близкие векторы.

На страницу:
2 из 5