bannerbanner
Искусственный интеллект от А до Б
Искусственный интеллект от А до Б

Полная версия

Искусственный интеллект от А до Б

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
9 из 15

Ввод (контекст) Вывод (следующий токен)

я

я, любовь

я, люблю, улица

я, любовь, улица, пища

я, любовь, улица, еда

я, люблю, улицу, еду

В и обозначают начало и конец последовательности. Эти маркеры необходимы для работы языковой модели с несколькими последовательностями. Каждый маркер обычно рассматривается моделью как один специальный маркер. Маркер конца последовательности особенно важен, так как он помогает языковым моделям понять, когда следует закончить свои ответы.

Самоконтроль отличается от ненадзора. При самоконтролируемом обучении метки выводятся из входных данных. При обучении без учителя вам вообще не нужны ярлыки.

Самоконтролируемое обучение означает, что языковые модели могут обучаться на основе текстовых последовательностей, не требуя маркировки. Поскольку текстовые последовательности присутствуют повсюду – в книгах, сообщениях в блогах, статьях и комментариях на Reddit – можно создать огромное количество обучающих данных, что позволяет масштабировать языковые модели и превращаться в LLM.

Однако LLM вряд ли является научным термином. Насколько большой должна быть языковая модель, чтобы ее можно было считать большой? То, что сегодня является большим, завтра может считаться крошечным. Размер модели обычно измеряется количеством ее параметров. Параметр – это переменная в модели машинного обучения, которая обновляется в процессе обучения. В целом, хотя это и не всегда верно, чем больше параметров у модели, тем больше ее способность обучаться желаемому поведению.

Когда в июне 2018 года вышла первая генеративная модель предварительно обученного трансформатора (GPT) от OpenAI, она насчитывала 117 миллионов параметров, и это считалось большим. В феврале 2019 года, когда OpenAI представила GPT-2 с 1,5 миллиардами параметров, 117 миллионов были понижены, чтобы считаться небольшими. На момент написания этой книги модель со 100 миллиардами параметров считается большой. Возможно, однажды, такой размер будет считаться маленьким.

Почему же большим моделям нужно больше данных? Более крупные модели обладают большей способностью к обучению, и, следовательно, им потребуется больше обучающих данных для максимизации их производительности. Вы также можете обучить большую модель на небольшом наборе данных, но это будет пустой тратой вычислительных ресурсов. Вы могли бы достичь аналогичных или лучших результатов на этом наборе данных с меньшими моделями.

В то время как языковые модели способны выполнять невероятные задачи, они ограничены текстом. Как люди, мы воспринимаем мир не только через язык, но и через зрение, слух, осязание и многое другое. Возможность обрабатывать данные, выходящие за рамки текста, имеет важное значение для работы ИИ в реальном мире.

По этой причине языковые модели расширяются для включения большего количества модальностей данных. GPT-4V и Claude 3 могут понимать изображения и тексты. Некоторые модели даже понимают видео, 3D-ресурсы, структуры белков и так далее. Включение большего количества модальностей данных в языковые модели делает их еще более эффективными. В 2023 году OpenAI отметила в своей системной карте GPT-4V, что «включение дополнительных модальностей (таких как ввод изображений) в LLM рассматривается некоторыми как ключевой рубеж в исследованиях и разработках в области искусственного интеллекта».

В то время как многие люди до сих пор называют Gemini и GPT-4V LLM, их лучше охарактеризовать как базовые модели. Слово «фундамент» означает как важность этих моделей в приложениях ИИ, так и тот факт, что они могут быть построены для различных потребностей.

Базовые модели знаменуют собой прорыв по сравнению с традиционной структурой исследований в области искусственного интеллекта. В течение долгого времени исследования в области искусственного интеллекта были разделены по модальностям данных. Обработка естественного языка (NLP) имеет дело только с текстом. Компьютерное зрение имеет дело только со зрением. Текстовые модели можно использовать для таких задач, как перевод и обнаружение спама. Модели, содержащие только изображения, могут использоваться для обнаружения объектов и классификации изображений. Модели Audioonly могут обрабатывать распознавание речи (преобразование речи в текст или STT) и синтез речи (преобразование текста в речь или TTS).

Модель, которая может работать с более чем одной модальностью данных, также называется мультимодальной моделью. Генеративная мультимодальная модель также называется большой мультимодальной моделью (LMM). Если языковая модель генерирует следующую лексему, обусловленную только текстовыми лексемами, то мультимодальная модель генерирует следующую лексему, обусловленную как текстовыми, так и графическими лексемами, или любыми другими модальностями, поддерживаемыми моделью.

Как и языковые модели, мультимодальные модели требуют данных для масштабирования. Самоконтроль работает и для мультимодальных моделей. Например, OpenAI использовала вариант самоконтроля, называемый наблюдением за естественным языком, для обучения своей модели языка и изображений CLIP (OpenAI, 2021). Вместо того, чтобы вручную генерировать метки для каждого изображения, они нашли пары (изображение, текст), которые одновременно встречались в Интернете. Они смогли сгенерировать набор данных из 400 миллионов пар (изображения, текст), что в 400 раз больше, чем у ImageNet, без затрат на ручную маркировку. Этот набор данных позволил CLIP стать первой моделью, которая могла обобщать задачи классификации изображений без необходимости дополнительного обучения.

Термин «базовые модели» используется для обозначения как больших языковых моделей, так и больших мультимодальных моделей. Обратите внимание, что CLIP не является генеративной моделью – он не был обучен генерировать открытые выходные данные. CLIP – это встраиваемая модель, обученная производить совместное встраивание текстов и изображений. В статье «Введение во встраивание» на стр. 134 подробно обсуждаются встраивания. На данный момент встраивания можно рассматривать как векторы, целью которых является захват значений исходных данных. Мультимодальные модели встраивания, такие как CLIP, являются основой генеративных мультимодальных моделей, таких как Flamingo, LLaVA и Gemini (ранее Bard).

Базовые модели также знаменуют собой переход от моделей, специфичных для конкретных задач, к моделям общего назначения. Раньше модели часто разрабатывались для конкретных задач, таких как анализ тональности или перевод. Модель, обученная анализу тональности, не сможет выполнять перевод, и наоборот.

Модели фундаментов, благодаря своим масштабам и способу их обучения, способны выполнять широкий спектр задач. Готовые модели общего назначения могут относительно хорошо работать для многих задач. Магистр права может заниматься как анализом тональности, так и переводом. Тем не менее, часто можно настроить модель общего назначения, чтобы максимизировать ее производительность при выполнении конкретной задачи. Представьте, что вы работаете с розничным продавцом над созданием приложения для создания описаний продуктов для их веб-сайта. Готовая модель может быть способна генерировать точные описания, но может не улавливать голос бренда или выделять его сообщение. Сгенерированные описания могут быть даже полны маркетинговых речей и клише.

Существует несколько методов, которые вы можете использовать, чтобы заставить модель генерировать то, что вы хотите. Например, вы можете составить подробную инструкцию с примерами желаемых описаний товаров. Такой подход является оперативным проектированием. Модель можно подключить к базе данных отзывов клиентов, которую модель может использовать для создания более качественных описаний. Использование базы данных в дополнение к инструкциям называется извлеченной дополненной генерацией (RAG). Вы также можете выполнить тонкую настройку (дальнейшее обучение) модели на основе набора данных с высококачественными описаниями продуктов.

Оперативное проектирование, RAG и тонкая настройка – это три очень распространенных метода проектирования ИИ, которые вы можете использовать для адаптации модели к своим потребностям. В оставшейся части книги все они будут подробно рассмотрены.

Адаптировать существующую мощную модель к задаче, как правило, намного проще, чем создавать модель для задачи с нуля – например, десять примеров и один уик-энд против 1 миллиона примеров и шести месяцев. Базовые модели удешевляют разработку приложений ИИ и сокращают время выхода на рынок. Какой именно объем данных необходим для адаптации модели, зависит от используемого метода. В этой книге также будет затронут этот вопрос при обсуждении каждой техники. Тем не менее, у моделей для конкретных задач есть еще много преимуществ, например, они могут быть намного меньше, что делает их более быстрыми и дешевыми в использовании.

Создавать собственную модель или использовать существующую – это классический вопрос, на который командам придется ответить самостоятельно. Обсуждения на протяжении всей книги могут помочь в принятии этого решения.

Инженерия искусственного интеллекта – это процесс создания приложений поверх моделей фундаментов. Люди создают приложения ИИ уже более десяти лет – процесс, часто известный как ML-инженерия или MLOps (сокращение от ML operations). Почему мы говорим об искусственном интеллекте сейчас?

Если традиционная инженерия машинного обучения включает в себя разработку моделей машинного обучения, то инженерия искусственного интеллекта использует существующие. Наличие и доступность мощных базовых моделей приводят к трем факторам, которые в совокупности создают идеальные условия для быстрого роста инженерии ИИ как дисциплины:

Фактор 1: Возможности ИИ общего назначения.

Базовые модели эффективны не только потому, что они могут лучше справляться с существующими задачами. Они также мощные, потому что могут выполнять больше задач. Приложения, которые ранее считались невозможными, теперь возможны, и появляются приложения, о которых раньше не думали. Даже приложения, которые не считались возможными сегодня, могут стать возможными завтра. Это делает ИИ более полезным для большего количества аспектов жизни, значительно увеличивая как пользовательскую базу, так и спрос на приложения ИИ.

Например, поскольку ИИ теперь может писать так же хорошо, как и человек, иногда даже лучше, ИИ может автоматизировать или частично автоматизировать каждую задачу, требующую общения, а это практически все. ИИ используется для написания электронных писем, ответов на запросы клиентов и объяснения сложных контрактов. Любой, у кого есть компьютер, имеет доступ к инструментам, которые могут мгновенно генерировать персонализированные высококачественные изображения и видео для создания маркетинговых материалов, редактировать профессиональные снимки головы, визуализировать художественные концепции, иллюстрировать книги и так далее. ИИ можно даже использовать для синтеза обучающих данных, разработки алгоритмов и написания кода, и все это поможет обучать еще более мощные модели в будущем.

Фактор 2: Увеличение инвестиций в ИИ.

Успех ChatGPT вызвал резкий рост инвестиций в ИИ, как со стороны венчурных капиталистов, так и со стороны предприятий. По мере того, как приложения ИИ становятся дешевле в создании и быстрее выходят на рынок, отдача от инвестиций в ИИ становится все более привлекательной. Компании спешат внедрить ИИ в свои продукты и процессы. Мэтт Росс, старший менеджер по прикладным исследованиям в Scribd, рассказал мне, что предполагаемая стоимость ИИ для его сценариев использования снизилась на два порядка с апреля 2022 года по апрель 2023 года.

По оценкам Goldman Sachs Research, к 2025 году инвестиции в ИИ могут приблизиться к 100 миллиардам долларов в США и 200 миллиардам долларов во всем мире. ИИ часто упоминается в качестве конкурентного преимущества. FactSet обнаружила, что каждая третья компания S&P 500 упомянула ИИ в своих отчетах о прибылях и убытках за второй квартал 2023 года, что в три раза больше, чем годом ранее.

По данным WallStreetZen, компании, которые упомянули ИИ в своих отчетах о прибылях и убытках, увидели рост цены своих акций больше, чем те, которые этого не делали: в среднем на 4,6% по сравнению с 2,4%. Неясно, является ли это причинно-следственной связью (ИИ делает эти компании более успешными) или корреляцией (компании успешны, потому что быстро адаптируются к новым технологиям).

Фактор 3: Низкий порог входа для создания приложений ИИ.

Подход «модель как услуга», популяризированный OpenAI и другими поставщиками моделей, упрощает использование ИИ для создания приложений. При таком подходе модели предоставляются через API, которые получают запросы пользователей и возвращают выходные данные модели. Без этих API использование модели ИИ требует инфраструктуры для размещения и обслуживания этой модели. Эти API предоставляют доступ к мощным моделям через единый API.

Мало того, искусственный интеллект также позволяет создавать приложения с минимальным кодированием. Во-первых, ИИ может писать код за вас, позволяя людям без опыта разработки программного обеспечения быстро превращать свои идеи в код и предлагать их своим пользователям. Во-вторых, вы можете работать с этими моделями на простом английском языке, а не использовать язык программирования.

Из-за ресурсов, необходимых для разработки базовых моделей, этот процесс возможен только для крупных корпораций (Google, Meta, Microsoft, Baidu, Tencent), правительств (Япония, ОАЭ) и амбициозных, хорошо финансируемых стартапов (OpenAI, Anthropic, Mistral). В интервью в сентябре 2022 года Сэм Альтман, генеральный директор OpenAI, сказал, что самой большой возможностью для подавляющего большинства людей будет адаптация этих моделей для конкретных приложений.

Мир быстро воспользовался этой возможностью. Инженерия искусственного интеллекта быстро превратилась в одну из самых быстрых и, вполне возможно, самых быстрорастущих инженерных дисциплин. Инструменты для разработки ИИ набирают обороты быстрее, чем любые предыдущие инструменты разработки программного обеспечения. Всего за два года четыре инструмента разработки искусственного интеллекта с открытым исходным кодом (AutoGPT, Stable Diffusion eb UI, LangChain, Ollama) уже собрали больше звезд на GitHub, чем Bitcoin. Они находятся на пути к тому, чтобы превзойти даже самые популярные фреймворки для веб-разработки, включая React и Vue, по количеству звезд.

Опрос LinkedIn, проведенный в августе 2023 года, показывает, что количество специалистов, добавляющих в свой профиль такие термины, как «Генеративный ИИ», «ChatGPT», «Быстрая разработка» и «Быстрое создание», увеличивалось в среднем на 75% каждый месяц. ComputerWorld заявил, что «обучение ИИ поведению является самым быстрорастущим навыком в карьере».

Почему появился термин «инженерия искусственного интеллекта»? Для описания процесса создания приложений на основе моделей фундаментов используется множество терминов, включая машинное обучение, MLOps, AIOps, LLMOps и т. д. Термина «инженерное обучение» будет недостаточно для описания этой дифференциации. Тем не менее, инженерия машинного обучения – отличный термин для охвата обоих процессов.

Быстро растущее сообщество инженеров ИИ продемонстрировало замечательную креативность с невероятным спектром захватывающих приложений. В следующем разделе будут рассмотрены некоторые из наиболее распространенных шаблонов применения.

Количество потенциальных приложений, которые вы можете создать с помощью моделей фундамента, кажется бесконечным. Какой бы вариант использования вы ни придумали, для этого, вероятно, найдется искусственный интеллект. Невозможно перечислить все потенциальные варианты использования ИИ.

Даже попытка категоризировать эти варианты использования является сложной задачей, так как в разных опросах используются разные категории. Например, Amazon Web Services (AWS) разделила корпоративные сценарии использования генеративного ИИ на три категории: качество обслуживания клиентов, производительность сотрудников и оптимизация процессов. Некоторые организации, такие как Deloitte, классифицируют сценарии использования по признаку получения ценности, например, снижение затрат, эффективность процессов, рост и ускорение инноваций. Для получения ценности у Gartner есть категория непрерывности бизнеса, что означает, что организация может выйти из бизнеса, если не внедрит генеративный ИИ. Из 2 500 руководителей, опрошенных Gartner в 2023 году, 7% назвали непрерывность бизнеса мотивацией для внедрения генеративного ИИ. В 2023 году провели отличное исследование о том, насколько различные профессии подвержены воздействию ИИ, авторы исследования определили задачу как открытую, если ИИ и программное обеспечение на основе ИИ могут сократить время, необходимое для выполнения этой задачи, как минимум на 50%. Профессия с 80% подверженностью означает, что 80% задач профессии подвержены риску. Согласно исследованию, профессии со 100% или почти 100% подверженностью включают устных и письменных переводчиков, специалистов по подготовке налоговых деклараций, веб-дизайнеров и писателей. Неудивительно, что профессии, не связанные с искусственным интеллектом, включают поваров, каменщиков и спортсменов. Это исследование дает хорошее представление о том, для каких сценариев использования подходит ИИ.

Поскольку базовые модели являются общими, приложения, построенные на их основе, могут решить множество проблем. Это означает, что приложение может принадлежать более чем к одной категории. Например, бот может предоставлять общение и обобщать информацию. Приложение может помочь вам извлечь структурированные данные из PDF-файла и ответить на вопросы об этом PDF-файле.

Обратите внимание, что небольшой процент сценариев использования в сфере образования, организации данных и написания статей не означает, что эти сценарии использования не пользуются популярностью. Это просто означает, что эти приложения не имеют открытого исходного кода. Создатели этих приложений могут найти их более подходящими для корпоративных сценариев использования.

Корпоративный мир, как правило, отдает предпочтение приложениям с меньшими рисками. Например, отчет Growth за 2024 год показал, что компании быстрее развертывают внутренние приложения (управление внутренними знаниями), чем внешние приложения (чат-боты службы поддержки клиентов). Внутренние приложения помогают компаниям развивать свой опыт в области ИИ, сводя к минимуму риски, связанные с конфиденциальностью данных, соблюдением нормативных требований и потенциальными катастрофическими сбоями. Аналогичным образом, в то время как базовые модели являются открытыми и могут использоваться для любых задач, многие приложения, построенные на их основе, все еще являются закрытыми, например, классификация. Задачи классификации легче оценить, что облегчает оценку их рисков.

На заре Интернета мало кто предвидел, что в один прекрасный день доминирующим вариантом использования в Интернете станут социальные сети. По мере того, как мы учимся извлекать максимальную пользу из ИИ, сценарий использования, который в конечном итоге будет доминировать, может нас удивить. Если повезет, сюрприз будет хорошим.

Во многих исследованиях генеративного ИИ программирование является самым популярным вариантом использования. Инструменты программирования ИИ популярны как потому, что ИИ хорошо справляется с программированием, так и потому, что ранние инженеры ИИ – это программисты, которые более подвержены проблемам кодирования. Одним из первых успехов базовых моделей в производстве является инструмент автозавершения кода GitHub Copilot, годовой доход которого превысил 100 миллионов долларов всего через два года после запуска. Стартапы по программированию на основе искусственного интеллекта привлекли сотни миллионов долларов, при этом Magic привлекла 320 миллионов долларов, а Anysphere – 60 миллионов долларов, оба в августе 2024 года. Инструменты программирования с открытым исходным кодом, такие как gpt-engineer и screenshot-to-code, получили 50 000 звезд на GitHub в течение года, и многие другие быстро внедряются.

Помимо инструментов, которые помогают в общем кодировании, многие инструменты специализируются на определенных задачах кодирования. Вот примеры таких задач: извлечение структурированных данных из веб-страниц и PDF-файлов (AgentGPT); преобразование родного языка в код (DB-GPT, SQL Chat, PandasAI); наличие дизайна или скриншота, генерация кода, который будет отображаться на веб-сайте, похожем на заданное изображение (screenshot-to-code, draw-a-ui); перевод с одного языка программирования или фреймворка на другой (GPTMigrate, AI Code Translator); написание документации (Autodoc); создание тестов (PentestGPT); генерация сообщений коммитов (AI Commits).

Очевидно, что ИИ может выполнять множество задач по разработке программного обеспечения. Вопрос в том, сможет ли ИИ полностью автоматизировать разработку программного обеспечения. С одной стороны, Дженсен Хуанг, генеральный директор NVIDIA, предсказывает, что искусственный интеллект заменит инженеров-программистов и что мы должны перестать говорить, что дети должны учиться программированию. В просочившейся записи генеральный директор AWS Мэтт Гарман поделился, что в ближайшем будущем большинство разработчиков перестанут заниматься программированием. Он не имеет в виду, что это конец разработчиков программного обеспечения; просто их рабочие места будут меняться. С другой стороны, многие инженеры-программисты убеждены, что их никогда не заменит ИИ, как по техническим, так и по эмоциональным причинам (люди не любят признавать, что их можно заменить).

Программная инженерия состоит из множества задач. ИИ лучше справляется с некоторыми задачами, чем с другими. Исследователи McKinsey обнаружили, что ИИ может помочь разработчикам быть в два раза продуктивнее при создании документации и на 25–50% продуктивнее при генерации кода и рефакторинге кода. Минимальное повышение производительности наблюдалось при выполнении задач высокой сложности. В беседах с разработчиками инструментов программирования ИИ многие говорили мне, что они заметили, что ИИ намного лучше справляется с фронтенд-разработкой, чем с бэкенд-разработкой.

Независимо от того, заменит ли ИИ инженеров-программистов, ИИ, безусловно, может сделать их более продуктивными. Это означает, что теперь компании могут добиваться большего с меньшим количеством инженеров. ИИ также может нарушить индустрию аутсорсинга, поскольку аутсорсинговые задачи, как правило, являются более простыми за пределами основного бизнеса компании.

Благодаря своей вероятностной природе ИИ отлично подходит для творческих задач. Одними из самых успешных стартапов в области искусственного интеллекта являются творческие приложения, такие как Midjourney для генерации изображений, Adobe Firefly для редактирования фотографий, а также Runway для создания видео. В конце 2023 года, в возрасте полутора лет, Midjourney уже приносила 200 миллионов долларов годового регулярного дохода. По состоянию на декабрь 2023 года среди 10 лучших бесплатных приложений для графики и дизайна в Apple App Store половина имеет в своем названии ИИ.

В настоящее время широко используется искусственный интеллект для создания изображений профиля для социальных сетей, от LinkedIn до TikTok. Многие кандидаты считают, что снимки головы, созданные искусственным интеллектом, могут помочь им проявить себя с лучшей стороны и увеличить шансы на получение работы. Восприятие фотографий профиля, сгенерированных искусственным интеллектом, значительно изменилось. В 2019 году Facebook заблокировал аккаунты, использующие фотографии профиля, созданные искусственным интеллектом, из соображений безопасности. В 2023 году многие приложения для социальных сетей предоставляют инструменты, которые позволяют пользователям использовать искусственный интеллект для создания фотографий профиля.

Для предприятий реклама и маркетинг быстро внедрили ИИ. ИИ можно использовать для непосредственного создания рекламных изображений и видео. Это может помочь в мозговом штурме идей или создании первых черновиков для экспертов. Вы можете использовать искусственный интеллект для создания нескольких объявлений и тестирования, чтобы увидеть, какое из них лучше всего подходит для аудитории. ИИ может генерировать варианты ваших объявлений в зависимости от сезона и местоположения. Например, вы можете использовать искусственный интеллект для изменения цвета листьев осенью или добавления снега на землю зимой.

Искусственный интеллект уже давно используется для помощи в написании текстов. Если вы используете смартфон, вы, вероятно, знакомы с автозаменой и автозаполнением, которые работают на основе искусственного интеллекта. Написание текстов – идеальное приложение для ИИ, потому что мы делаем это часто, это может быть довольно утомительно, и у нас высокая терпимость к ошибкам. Если модель предлагает что-то, что вам не нравится, вы можете просто проигнорировать это.

На страницу:
9 из 15