
Полная версия
Иллюзия разума. Правда об искусственном интеллекте
Интересный эффект проявляется при сравнении с человеческим обучением. Ребёнку достаточно увидеть несколько собак, чтобы научиться узнавать их в разных позах, ракурсах и даже мультяшных изображениях. Нейросети же потребуются десятки тысяч фотографий, причём желательно – с разными породами, в разных условиях, под разными углами. И всё равно она может дать сбой, столкнувшись с необычным ракурсом, который не был представлен в обучающей выборке.
Это подводит нас к ключевому выводу: Big Data – не просто «чем больше, тем лучше». Речь идёт о качестве, разнообразии и репрезентативности данных. Одно дело – миллион фотографий кошек, сделанных в идеальных условиях студии. Совсем другое – те же миллионы снимков, но включающих разные породы, освещение, ракурсы и фоны. Именно поэтому современные наборы данных стараются охватывать максимально широкий спектр вариантов: только так можно надеяться, что модель будет работать в реальном мире, а не в «тепличных» условиях.
Перспективы же выглядят ещё интереснее. С развитием технологий мы постепенно переходим от простого накопления данных к их стратегическому использованию. Уже сейчас появляются методы, позволяющие нейросетям обучаться эффективнее – например, с помощью синтетических данных или специальных техник аугментации6. Но одно остаётся неизменным: без качественных данных в достаточном количестве даже самая совершенная архитектура нейросети останется бесполезной.
В этом смысле данные действительно стали новой нефтью – ресурсом, без которого невозможен прогресс в ИИ. Но в отличие от нефти, этот ресурс не иссякает, а только приумножается с каждым днём, создавая и новые возможности, и новые вызовы.
Как данные влияют на качество моделей?
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.
Примечания
1
ИИ – искусственный интеллект.
2
Deepfake (от англ. deep learning + fake – «глубокое обучение» + «подделка») – это технология синтеза изображений, видео или аудио с помощью искусственного интеллекта, которая позволяет создавать гиперреалистичные подделки, где человек говорит или делает то, чего не было в реальности.
3
Паттерн (от англ. pattern – «шаблон, образец») – это устойчивая, повторяющаяся модель, схема или закономерность, которая встречается в природе, поведении, данных или дизайне.
4
Дискретные токены – это неделимые, уникальные единицы данных (например, слова или символы), используемые в обработке естественного языка (NLP) для представления текста в числовой форме.
5
Big Data (англ. «большие данные») – это огромные объемы структурированных и неструктурированных данных.
6
Аугментация (от англ. augmentation – «увеличение, расширение») – это процесс искусственного расширения или обогащения данных, ресурсов или возможностей.