Машинное обучение без иллюзий. Понимание возможностей и границ ML
Машинное обучение без иллюзий. Понимание возможностей и границ ML

Полная версия

Машинное обучение без иллюзий. Понимание возможностей и границ ML

Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
4 из 4

Понимание и явная артикуляция этих допущений — необходимое условие ответственного применения машинного обучения. Но даже когда мы осознаём все предположения, заложенные в модель, остаётся фундаментальный вопрос: можем ли мы создать систему без допущений? И если нет, то кто решает, какие допущения приемлемы?


Мы рассмотрели три уровня, на которых человеческая субъективность проникает в якобы объективные алгоритмы машинного обучения. На уровне проектных решений — через выбор целей, данных, метрик и порогов. На уровне исторических данных — через воспроизведение и усиление существующих социальных закономерностей. На уровне архитектуры — через неявные допущения о структуре мира.

Каждый из этих уровней добавляет свой слой субъективности, и эти слои накладываются друг на друга, создавая сложную систему, которая выглядит объективной благодаря математическому языку, но остаётся глубоко человеческой в своих основаниях и ограничениях.

Это не означает, что машинное обучение бесполезно или что мы должны отказаться от его использования. Напротив, понимание границ объективности делает применение этой технологии более осознанным и ответственным. Когда мы признаём, что алгоритм — это кристаллизация человеческих решений, а не независимый арбитр истины, мы можем более критически подходить к его разработке и применению.

В следующей главе мы рассмотрим, как терминология, которую мы используем для описания машинного обучения, формирует наше понимание и ожидания от этой технологии, часто вводя нас в заблуждение относительно её реальных возможностей.

Глава 3. Язык и терминология

В 2019 году крупная российская страховая компания (обобщая типичный опыт внедрений в отрасли) внедрила систему «искусственного интеллекта» для обработки страховых случаев. На презентации для совета директоров консультанты из одной из большой четвёрки говорили о том, что система «понимает» обращения клиентов, «анализирует» документы и «принимает решения» о выплатах. Через полгода эксплуатации выяснилось, что система отклоняла 40% законных требований о выплатах, не могла обработать нестандартные случаи и требовала ручной проверки практически каждого решения. Проблема была не столько в технологии, сколько в завышенных ожиданиях, созданных неточной терминологией. Руководство ожидало «интеллект», а получило статистический классификатор (алгоритм распределения объектов по категориям на основе их признаков).

Язык формирует мышление, а мышление определяет решения. Когда мы говорим, что модель «думает» или «понимает», мы неявно наделяем её человеческими качествами, которых у неё нет и быть не может. Эта глава посвящена развенчанию языковых иллюзий вокруг машинного обучения и формированию точного профессионального словаря.

3.1. Проблема антропоморфной терминологии

Эволюционные корни антропоморфизации

Склонность видеть человеческие черты в неодушевлённых объектах заложена в нас эволюцией. Наши предки, которые принимали шорох в кустах за хищника, выживали чаще тех, кто игнорировал потенциальную угрозу. Лучше тысячу раз ошибочно увидеть намерение там, где его нет, чем один раз пропустить реальную опасность. Этот механизм, спасавший жизни в саванне, сегодня заставляет нас видеть «интеллект» в статистических моделях.

В 1944 году психологи провели эксперимент, показывая испытуемым простую анимацию с движущимися геометрическими фигурами. Практически все участники описывали движение фигур в терминах намерений и эмоций: «треугольник преследует круг», «квадрат прячется от треугольника», «круг боится». Если мы готовы приписать эмоции треугольникам на экране, что говорить о сложных алгоритмах, выдающих осмысленные с виду результаты?

Современные нейронные сети (математические модели с множеством связанных вычислительных узлов) усиливают эту иллюзию. Когда GPT (генеративная предобученная трансформерная модель для обработки текста) генерирует связный текст, трудно не думать, что система «понимает» то, о чём пишет. Когда система компьютерного зрения (алгоритмы обработки и анализа изображений) распознаёт лица, кажется, что она «видит» как человек. Но это проекция наших ожиданий на математические операции с матрицами чисел.

Маркетинговое усиление иллюзий

Индустрия технологий активно эксплуатирует нашу склонность к антропоморфизации. IBM назвала свою систему Watson, создав ассоциацию с доктором Ватсоном — умным и надёжным помощником Шерлока Холмса. В рекламной кампании 2011 года Watson представлялся как система, которая «думает» и «понимает». Реальность оказалась прозаичнее: Watson Health, подразделение для здравоохранения, было продано в 2022 году после многолетних неудач в попытках «революционизировать медицину». Система, которая блестяще играла в Jeopardy! (американская телевикторина), оказалась неспособной справиться со сложностью медицинских данных.

Российский рынок следует тем же закономерностям. Анализ презентаций вендоров систем машинного обучения за 2023 год показывает устойчивый набор терминов: «интеллектуальная платформа», «когнитивные технологии», «система понимания естественного языка», «умный помощник». Ни один из этих терминов не отражает реальную природу технологии — статистическое моделирование (выявление закономерностей в данных и их применение для прогнозов).

Особенно показателен случай с чат-ботами. В 2020 году Сбербанк запустил «виртуального помощника», обещая, что он будет «понимать клиентов» и «решать их проблемы». Реальность: система могла отвечать на ограниченный набор типовых вопросов, используя заранее подготовленные шаблоны и простое сопоставление ключевых слов. Когда клиент выходил за рамки предопределённых сценариев, «понимающий помощник» либо выдавал нерелевантные ответы, либо переводил на оператора.

Языковые ловушки в корпоративной среде

В корпоративной среде антропоморфная терминология создаёт особенно опасные иллюзии. Когда на совещании говорят, что «система приняла решение отклонить заявку», создаётся впечатление, что произошёл некий мыслительный процесс, аналогичный человеческому. В реальности произошло следующее: входные данные были преобразованы в числовой вектор (массив чисел), этот вектор был умножен на матрицу весов (параметры модели, полученные в процессе обучения), к результату была применена функция активации (математическое преобразование), и итоговое число сравнили с пороговым значением. Никакого «решения» в человеческом смысле не было.

Эта путаница имеет практические последствия. Типичная ситуация, с которой сталкиваются банки: система кредитного скоринга (алгоритм оценки кредитоспособности заёмщика) отклоняет заявку известного предпринимателя. Когда он требует объяснений, сотрудник банка говорит: «Система решила, что риск слишком высок». Предприниматель задаёт логичный вопрос: «На основании чего система так решила?» Сотрудник не может ответить, потому что использованная модель градиентного бустинга (ансамблевый метод машинного обучения, последовательно обучающий деревья решений) состоит из сотен деревьев решений (алгоритмов классификации на основе последовательности условий), и проследить логику «решения» практически невозможно.

Последствия неточной терминологии

Антропоморфизация машинного обучения приводит к целому каскаду проблем. Первая и самая очевидная — завышенные ожидания. Если мы верим, что система «понимает», мы ожидаем от неё гибкости человеческого понимания. Когда система распознавания речи (алгоритм преобразования аудиосигнала в текст) не может понять акцент или диалект, пользователи фрустрированы: «Как же так, она же должна понимать речь!» Но система не понимает речь — она сопоставляет звуковые закономерности с текстовыми метками на основе статистических корреляций в обучающих данных (наборах примеров для настройки модели).

Вторая проблема — снижение критичности. Если мы верим, что система «анализирует» данные, мы менее склонны проверять её выводы. Расследование 2016 года показало, что система COMPAS, используемая судами в США для оценки риска рецидивизма (повторного совершения преступления), регулярно описывалась как «анализирующая поведение преступников». Журналистское расследование ProPublica показало, что система имела расовую предвзятость: при прочих равных условиях она в два раза чаще ошибочно классифицировала чёрных подсудимых как имеющих высокий риск рецидива. Но судьи доверяли «анализу» системы, не понимая, что это всего лишь статистическая экстраполяция исторических закономерностей.

Третья проблема — размывание ответственности. Когда мы говорим, что «алгоритм решил», мы неявно снимаем ответственность с людей, которые создали алгоритм, выбрали данные, определили метрики. В 2017 году Amazon свернула проект системы найма на основе машинного обучения, которая дискриминировала женщин. Первоначальная реакция руководства была: «Система выявила, что мужчины — лучшие кандидаты». Потребовалось время, чтобы осознать: система просто воспроизвела исторические закономерности найма в компании, где доминировали мужчины.

Корректная терминология: что происходит на самом деле

Давайте проследим, что происходит, когда мы используем антропоморфные термины, и какова реальность. Когда говорят, что модель «видит» изображение, на самом деле происходит следующее: изображение представляется как трёхмерный массив чисел (высота × ширина × цветовые каналы), свёрточные слои (операции математической свёртки) выделяют локальные образцы, слои пулинга (операции уменьшения размерности) обобщают информацию, полносвязные слои (слои, где каждый нейрон связан со всеми нейронами предыдущего слоя) производят финальную классификацию. Никакого «видения» в человеческом смысле нет — есть серия матричных операций.

Когда говорят, что модель «понимает» текст, реальность такова: текст токенизируется (разбивается на элементарные единицы — слова или части слов), токены преобразуются в векторные представления (массивы чисел), механизм внимания (алгоритм определения важности разных частей входных данных) вычисляет веса важности для разных токенов, декодер (часть модели, генерирующая выходные данные) генерирует наиболее вероятное продолжение на основе статистических закономерностей. Семантического понимания в человеческом смысле нет — есть статистическое предсказание вероятных последовательностей.

Когда говорят, что модель «принимает решение», происходит следующее: входные признаки умножаются на веса, полученные в процессе обучения (настройки параметров модели на данных), применяется функция активации, результат сравнивается с порогом. Это не решение в смысле взвешивания альтернатив и выбора — это механическое применение выученных статистических закономерностей.

3.2. Научная терминология в контексте

Злоупотребление статистическими терминами

В индустрии машинного обучения существует парадокс: с одной стороны, используется строгая математическая терминология, с другой — эти термины часто вырываются из контекста, создавая ложное впечатление научной обоснованности. Рассмотрим, как это происходит на практике.

«Статистически значимый результат» — одна из самых злоупотребляемых фраз. Обобщая типичный опыт российских компаний, разрабатывающих рекомендательные системы (алгоритмы подбора релевантного контента для пользователей): отчёт о «статистически значимом улучшении» метрики CTR (click-through rate — доля кликов по рекомендациям) на 0,1%. При детальном рассмотрении выясняется: да, при объёме выборки в 100 миллионов показов даже такое минимальное изменение статистически значимо при p-value <0.05 (вероятность получить такой результат случайно меньше 5%). Но практическая значимость? При среднем CTR в 2% улучшение на 0,1% означает изменение с 2,000% до 2,002%. Это изменение настолько мало, что не покрывает даже затраты на разработку и внедрение новой модели.

Похожая ситуация с термином «точность». В презентациях часто можно увидеть: «Наша модель достигает точности 99%!» Звучит впечатляюще, пока не задашь правильные вопросы. Типичный случай из практики банков: система обнаружения мошенничества отчитывается о точности 99,5%. Реальность: мошеннических транзакций было 0,1% от общего числа. Модель, которая всегда предсказывает «не мошенничество», имела бы точность 99,9%. Получается, что хвалёная модель работала хуже, чем отсутствие модели вообще. Правильная метрика для такой задачи — F1-score (гармоническое среднее между точностью и полнотой), который в данном случае составлял жалкие 0,15.

Игра с метриками: искусство выбирать выгодное

Выбор метрики — это выбор того, что считать успехом. И здесь открывается широкое поле для манипуляций. Типичная ситуация в медицинских лабораториях: внедряется система диагностики заболеваний по анализам крови. В маркетинговых материалах указывается «чувствительность 95%» (доля правильно определённых больных среди всех больных). Впечатляет? Но не указывается специфичность (доля правильно определённых здоровых среди всех здоровых), которая составляет всего 60%. Это означает, что 40% здоровых людей система ошибочно классифицирует как больных.

Представьте последствия: тысячи людей получают ложноположительные результаты, испытывают стресс, проходят дополнительные дорогостоящие обследования. Когда журналисты поднимают эту тему, представители компании отвечают: «Мы оптимизировали систему для максимального выявления больных». Технически они правы. Этически — это катастрофа.

Ещё один пример манипуляции метриками — системы оценки эффективности сотрудников в IT-компаниях. Система использует метрику «производительность», измеряемую количеством закрытых задач. Результат предсказуемый: сотрудники начинают дробить большие задачи на множество мелких, выбирать простые задачи вместо важных, избегать сложных проектов. Метрика растёт, реальная продуктивность падает. Это классический пример закона Гудхарта в действии: когда метрика становится целью, она перестаёт быть хорошей метрикой.

Проблема усреднения и агрегации

«Средняя температура по больнице» — эта метафора идеально описывает одну из ключевых проблем в применении машинного обучения. Модели обучаются на агрегированных данных и выдают усреднённые прогнозы, но реальность состоит из индивидуальных случаев.

В 2019 году исследователи из MIT проанализировали работу коммерческих систем распознавания лиц от Amazon, Microsoft и IBM. Общая точность всех систем превышала 90% — отличный результат. Но дьявол, как всегда, в деталях. Для белых мужчин точность составляла 99%. Для чёрных женщин — 65%. Системы буквально не видели треть чёрных женщин правильно. Причина: обучающие выборки (наборы данных для настройки модели) состояли преимущественно из фотографий белых мужчин. Модель научилась хорошо распознавать то, что видела часто, и плохо — то, что видела редко.

Эта проблема проявляется везде. Системы предсказания побочных эффектов лекарств обучены в основном на данных из клинических испытаний, где преобладают молодые здоровые добровольцы. Применение к пожилым пациентам с множественными заболеваниями даёт непредсказуемые результаты. Модели оценки кредитных рисков обучены на исторических данных, где доминируют определённые социально-экономические группы. Для новых групп (мигранты, молодые предприниматели) модели работают плохо.

Временные аспекты: когда контекст меняет всё

Термин «актуальная модель» часто используется без понимания, насколько быстро модели устаревают. В машинном обучении есть понятие data drift (изменение распределения данных со временем) — ситуация, когда данные, на которых применяется модель, начинают отличаться от данных, на которых она обучалась.

Пандемия COVID-19 стала идеальной иллюстрацией этой проблемы. Модели прогнозирования спроса, обученные на данных до 2020 года, стали бесполезны буквально за недели. Модель прогнозирования трафика в московском метро, показывавшая точность 95% в феврале 2020 года, к апрелю ошибалась в разы — никто не предвидел локдаун. Модели оценки кредитных рисков, не учитывавшие возможность массовой удалённой работы, начали отклонять заявки от платёжеспособных клиентов, временно сменивших офис на дом.

Но data drift (изменение характеристик данных со временем) происходит не только во время кризисов. Обобщая опыт российского ритейла: модель рекомендаций (алгоритм подбора товаров для покупателей) постепенно деградирует с 15% конверсии (доля покупок из рекомендованного) до 8% за год. Причина: изменились покупательские привычки. Модель была обучена, когда люди покупали в магазинах, а применялась, когда массово перешли на доставку. Контекст покупки изменился, модель осталась прежней.

Вопросы, которые нужно задавать

Критическое мышление о терминологии машинного обучения начинается с правильных вопросов. Когда вам говорят о «высокой точности», спрашивайте: на каких данных измерена? Как распределена точность по разным группам? Какие другие метрики использовались? Что происходит при ошибках?

Когда говорят о «статистически значимом улучшении», уточняйте: какой размер эффекта? Какой размер выборки? Какой уровень значимости использовался? Проводилась ли коррекция на множественные сравнения (проверка многих гипотез одновременно увеличивает вероятность ложных открытий)?

Когда заявляют, что модель «работает», выясняйте: в каких условиях тестировалась? Как долго? На каких группах пользователей? Как измеряется «работает»? Что происходит, когда она не работает?

Реальный пример важности таких вопросов. Типичная ситуация при закупке государственными организациями систем автоматической проверки документов: вендор заявляет «точность распознавания 98%». После правильных вопросов выясняется: точность измерена на чистых сканах высокого качества, система не работает с фотографиями документов, не распознаёт рукописный текст, требует строго определённый формат PDF (определённые технические характеристики файла), не поддерживает документы старого образца. Реальная применимость системы оказывается около 40% от документооборота организации.

3.3. Профессиональный словарь

Базовая терминология: что на самом деле означают термины

Профессиональный язык машинного обучения требует точности. Каждый термин имеет конкретное значение, и подмена понятий ведёт к ошибкам в проектировании и применении систем. Рассмотрим ключевые термины и их корректное использование.

Модель машинного обучения — это не «искусственный интеллект», а математическая функция, которая преобразует входные данные в прогнозы. Когда банк говорит об «интеллектуальной системе кредитного скоринга», корректнее сказать: «статистическая модель оценки вероятности дефолта (невозврата кредита) на основе исторических данных». Это сразу проясняет и возможности (статистический прогноз), и ограничения (зависимость от исторических данных).

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Конец ознакомительного фрагмента
Купить и скачать всю книгу
На страницу:
4 из 4