OpenAI Codex: полное руководство» Архитектура, CLI, API и практика AI-ассистированной разработки
OpenAI Codex: полное руководство» Архитектура, CLI, API и практика AI-ассистированной разработки

Полная версия

OpenAI Codex: полное руководство» Архитектура, CLI, API и практика AI-ассистированной разработки

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
2 из 2

Эти цифры заслуживают пояснения. Метрика pass@k означает вероятность того, что хотя бы одно из k сгенерированных решений пройдёт все тесты задачи. Значение pass@1 = 28,8% может показаться скромным, но необходимо учитывать контекст: задачи HumanEval включают реализацию алгоритмических функций средней сложности, и модель генерирует работающий код «с нуля», без каких-либо подсказок, кроме сигнатуры функции и докстринга. Для сравнения, базовая GPT-3 (без дообучения на коде) достигала лишь 0% pass@1 на тех же задачах.

Codex отличался от GPT-3 не только качеством кодогенерации, но и рядом архитектурных и тренировочных решений:

Во-первых, контекстное окно было увеличено до 4096 токенов (впоследствии до 8192), что позволяло модели «видеть» значительный объём окружающего кода при генерации.

Во-вторых, токенизатор был адаптирован для кода: стандартный BPE-словарь GPT-3 плохо обрабатывал типичные конструкции кода (пробелы для отступов, составные идентификаторы вроде camelCase и snake_case, специальные символы). Codex использовал модифицированный токенизатор, лучше отражающий структуру кода.

В-третьих, процесс дообучения включал специальную фильтрацию и очистку данных. Из 159 ГБ кода на GitHub были удалены файлы размером более 1 МБ и файлы со средней длиной строки более 100 символов (вероятные минифицированные или сгенерированные файлы). Финальный обучающий набор содержал код на десятках языков программирования, с доминированием Python (составлявшего около 50% данных по размеру).

Коммерческим воплощением Codex стал GitHub Copilot – продукт, разработанный совместно OpenAI и GitHub (принадлежащим Microsoft). Copilot был запущен в июне 2021 года в режиме технического превью и получил широкое распространение в 2022 году. Copilot интегрировался в Visual Studio Code и другие IDE в виде плагина, предлагающего автодополнение кода «на лету» – по мере того, как программист печатает, AI предлагает продолжение в виде сероватого текста, который можно принять нажатием Tab или отклонить.

Влияние Copilot на индустрию было колоссальным. По данным GitHub, к концу 2023 года Copilot насчитывал более 1,3 миллиона платных подписчиков и использовался в более чем 50 000 организациях. Опрос разработчиков, проведённый GitHub, показал, что 88% пользователей Copilot чувствовали себя более продуктивными, 77% отметили, что инструмент помогает им оставаться «в потоке» (в состоянии creative flow), и 74% заявили, что могут сосредоточиться на более интересной работе.

Однако первое поколение Codex/Copilot имело существенные ограничения:

Модель работала как автодополнитель кода – она предсказывала следующий фрагмент, но не могла планировать сложные многошаговые изменения.

Контекст ограничивался текущим файлом (и частично соседними файлами в IDE). Модель не «понимала» структуру проекта в целом.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Конец ознакомительного фрагмента
Купить и скачать всю книгу
На страницу:
2 из 2