Полная энциклопедия нейросетей. Том 3. Безопасность, этика и контроль качества
Полная энциклопедия нейросетей. Том 3. Безопасность, этика и контроль качества

Полная версия

Полная энциклопедия нейросетей. Том 3. Безопасность, этика и контроль качества

Настройки чтения
Размер шрифта
Высота строк
Поля

Алекс Промтов

Полная энциклопедия нейросетей. Том 3. Безопасность, этика и контроль качества

Полная энциклопедия нейросетей

Том 3. Безопасность, этика и контроль качества

Введение

Первый том научил вас понимать нейросеть. Второй — строить системы, которые работают без вашего постоянного присутствия. Теперь настало время задать самый трудный вопрос: а можно ли им доверять?

Вы уже знаете, что нейросети галлюцинируют. Вы знаете, что они не отличают правду от вымысла. Вы знаете, что их обучали на данных, которые могут содержать предрассудки, ошибки и даже откровенную ложь. Но когда вы используете нейросеть для бизнеса, для юридических консультаций, для медицинских советов или для работы с персональными данными, цена ошибки становится неприемлемо высокой.

Третий том — о том, как защитить себя, своих клиентов и свою репутацию. О галлюцинациях: почему они возникают и как их выявлять до того, как они причинят вред. О конфиденциальности: какие данные можно отправлять в нейросеть, а какие — нет; как не устроить утечку через промт. О юридических аспектах: кто отвечает за ошибки нейросети, кому принадлежит сгенерированный контент, можно ли использовать чужие изображения для обучения. Об этике: как избежать дискриминации, как не обманывать пользователей, как не создавать вредоносный контент. О контроле качества в профессиональной среде: когда автоматизация опаснее ручного труда, как строить систему проверок и куда эскалировать сомнительные случаи.

Эта книга — не для любителей. Она для тех, кто работает с нейросетями профессионально: владельцев бизнеса, юристов, специалистов по комплаенс, IT-директоров, проджект-менеджеров, ответственных за внедрение ИИ. И, конечно, для всех, кто не хочет однажды проснуться с новостью «Ваша нейросеть нарушила закон» или «Компания N заплатила миллион за ошибку чат-бота».

Мы разберём реальные кейсы (без имён, но с сутью), типовые уязвимости и практические механизмы защиты. Я не буду давать готовые промты — их не будет во всей энциклопедии. Я дам понимание, как строить безопасные и этичные системы на базе нейросетей. Потому что в мире, где ИИ становится таким же естественным, как электричество, безопасность — это не фича, а базовая опция.

Итак, пристегните ремни. Разговор будет жёстким.

Глава 1. Галлюцинации: природа, виды, цена

Галлюцинация — это уверенный, правдоподобный, но фактически неверный ответ нейросети. Мы уже касались этой темы в первом томе. Но там мы говорили о галлюцинациях как о забавной особенности, с которой можно бороться переспросом. Здесь мы поговорим о галлюцинациях как о системном риске, который может разрушить бизнес, привести к судебным искам и подорвать доверие к вашей компании.

Нейросеть не знает, что она галлюцинирует. Для неё все сгенерированные токены равноправны. У неё нет механизма «честности», который бы останавливал её перед выдумкой. Более того, чем увереннее звучит ответ, тем выше вероятность, что пользователь ему поверит. Это делает галлюцинации идеальным оружием самообмана.

Какими бывают галлюцинации

Не все галлюцинации одинаково опасны. Я классифицирую их по трём измерениям: тип ошибки, источник и критичность.

По типу ошибки.

Фактические галлюцинации — модель называет неверную дату, имя, число, факт. «Пушкин родился в 1800 году». Самый частый и, казалось бы, легко проверяемый тип. Но в больших объёмах автоматической обработки такие ошибки накапливаются.

Логические галлюцинации — модель строит рассуждение, которое нарушает причинно-следственные связи или законы логики. «Если идёт дождь, то трава мокрая. Трава мокрая, значит, идёт дождь». Для человека очевидная ошибка, для нейросети — возможная последовательность токенов.

Ссылочные галлюцинации — модель ссылается на несуществующий документ, автора, статью, закон. «Как сказано в исследовании MIT 2025 года...» — исследования не существует. Это особенно опасно в юридической и научной сферах, где ссылки обязательны.

Смысловые галлюцинации — модель правильно называет факты, но в ответе на другой вопрос. Например, вы спросили «как улучшить конверсию?», а она рассказала про методы SEO, хотя конверсия и SEO — разные вещи. Формально факты верны, но они не релевантны.

По источнику.

Галлюцинации из-за недостатка данных — модель не встречала в обучении правильный ответ или встречала его редко. Тогда она «дорисовывает» наиболее вероятное, но неверное продолжение. Это лечится RAG или fine-tuning с правильными примерами.

Галлюцинации из-за неоднозначности промта — вы спросили неконкретно, и модель выбрала не тот смысл. Пример: «Что делать, если у клиента проблемы с доставкой?» Модель может выдать общие фразы, а может начать придумывать конкретные сроки, которых нет в реальности.

Галлюцинации из-за конфликта инструкций — вы дали противоречивые указания («будь креативен, но не выдумывай»). Модель выбирает что-то среднее, и результат может быть как полезным, так и бредовым.

Галлюцинации из-за высокой температуры — чем выше температура, тем больше вероятность выбора маловероятного, «свободного» токена. Для фактологических задач высокая температура — прямой путь к галлюцинациям.

По критичности.

Низкая критичность: ошибка в неважном факте, опечатка, несущественное искажение. Последствия — потраченное время на перепроверку.

Средняя критичность: ошибка может привести к неправильному решению, но не к финансовым или репутационным потерям, которые нельзя исправить. Например, неверный совет по выбору инструмента для рассылки.

Высокая критичность: ошибка ведёт к прямым убыткам, нарушению закона, вреду здоровью, раскрытию тайны. Неверный медицинский совет, ложное юридическое заключение, генерация персональных данных постороннего человека.

Реальная цена галлюцинаций: примеры из практики

Я не буду называть компании, но такие случаи есть.

Кейс 1. Чат-бот поддержки интернет-магазина пообещал клиенту, что доставка будет завтра. На самом деле стандартный срок — три дня. Клиент спланировал день, не дождался, потребовал компенсацию. Магазин выплатил бонус и потратил часы на разбирательства. Причина: в обучающих данных были примеры быстрой доставки для других товаров, модель обобщила не туда. Цена: 5000 рублей и репутационные потери.

Кейс 2. Юридическая нейросеть (внедрённая в сервис для клиентов) сгенерировала ссылку на несуществующую статью закона. Юрист-пользователь не стал проверять, сослался на неё в суде. Оппонент обнаружил подделку, суд оштрафовал юриста за введение в заблуждение. Цена: штраф 50 000 рублей и испорченная репутация.

Кейс 3. Медицинский ИИ-ассистент (не диагностический, а совещательный) рекомендовал пациенту увеличить дозу лекарства, которое при передозировке опасно. Пациент последовал совету, попал в больницу. К счастью, обошлось без тяжёлых последствий. Причина: модель увидела в обучении фразу «при недостаточном эффекте дозу увеличивают» и не учла противопоказания. Цена: иск на миллион, отзыв продукта, потеря лицензии.

Эти кейсы показывают: галлюцинации — не теоретическая проблема. В профессиональной среде они бьют по кошельку и по свободе.

Почему RAG снижает галлюцинации, но не убивает их полностью

Второй том подробно рассказывает о RAG — технологии, которая заставляет нейросеть отвечать, опираясь на предоставленные документы, а не на свою память. RAG радикально снижает галлюцинации, особенно фактические. Если в документе нет информации, модель должна сказать «не знаю». На практике RAG-системы ошибаются в разы реже, чем чистые языковые модели.

Но RAG не панацея. Галлюцинации остаются по нескольким причинам.

Первая: нерелевантный поиск. Векторная база данных может вернуть фрагмент, который не отвечает на вопрос, но модель всё равно пытается из него что-то выжать. Результат — правдоподобный, но неверный ответ, построенный на не том документе.

Вторая: игнорирование ограничения «не выдумывай». Модель может получить инструкцию «отвечай только по документам», но при этом добавить «для полноты картины» информацию из своего обучения. Это случается, если инструкция сформулирована недостаточно жёстко или если модель «привыкла» к творчеству.

Третья: противоречия в документах. Если в базе знаний есть два противоречащих друг другу утверждения, модель может выбрать одно (возможно, неверное) или скомбинировать их в абсурд.

Четвёртая: вопросы, на которые нет ответа, но модель не хочет признаваться. Некоторые модели запрограммированы «быть полезными» и скорее придумают ответ, чем скажут «не знаю». Это лечится только жёсткими промтами и многоступенчатой проверкой.

Системная защита от галлюцинаций: пять уровней

Если вы внедряете нейросеть в профессиональную среду, защита от галлюцинаций должна быть многоуровневой. Опирайтесь на пять линий обороны.

Уровень первый: архитектура запроса. Жёсткий промт с запретом выдумывать, требованием ссылаться на источник (в RAG) и командой «если не уверен — скажи "неизвестно"». Низкая температура (0–0,3) для фактологических задач. Конкретные ограничения формата.

Уровень второй: пост-обработка и формальные проверки. Скрипт проверяет, есть ли в ответе ссылки на источники (если они обязательны). Проверяет наличие обязательных полей. Для числовых ответов — проверяет, что возвращено число, а не текст. Простейшие детекторы несоответствий (например, если модель пишет «всегда» или «никогда» — это красный флаг).

Уровень третий: самопроверка той же модели. После генерации ответа модель оценивает его по шкале уверенности и выявляет потенциально ложные утверждения. Этот метод не идеален, но отсеивает грубые ошибки.

Уровень четвёртый: перекрёстная проверка другой моделью (или той же, но с другим промтом). Критик может быть лёгкой моделью, специализирующейся на фактологических проверках. Он ищет противоречия и несоответствия.

Уровень пятый: ручная проверка для критических случаев. Если автоматические проверки не дали однозначного «ОК», или если ответ имеет высокую цену ошибки, ответ должен уходить на верификацию человеку. Это дорого, но дёшево по сравнению с иском.

В хорошо построенной системе первые четыре уровня отсеивают 95% галлюцинаций. Оставшиеся 5% (самые сложные и опасные) обрабатываются человеком.

Что делать, если галлюцинация всё же произошла в продакшне

Вы обнаружили, что нейросеть выдала неверный ответ, и он уже ушёл клиенту или в базу. Не паникуйте. Действуйте по протоколу.

Шаг 1. Зафиксируйте инцидент. Точное время, текст запроса, текст ответа, какая модель использовалась, какие были настройки. Без логов вы не сможете проанализировать причину.

Шаг 2. Оцените последствия. Нанесён ли реальный ущерб? Если да — подключайте юристов и связывайтесь с пострадавшей стороной. Если нет — всё равно разбирайтесь, чтобы не повторилось.

Шаг 3. Выясните причину. Была ли галлюцинация из-за неправильного промта, из-за низкого качества RAG-поиска, из-за высокой температуры, из-за конфликта инструкций? Проанализируйте логи.

Шаг 4. Внесите корректировку. Измените промт, добавьте примеры, скорректируйте чанкинг документов, понизьте температуру, добавьте проверку-критика.

Шаг 5. Проверьте, что исправление работает. Прогоните несколько похожих запросов, убедитесь, что ошибка не повторяется.

Шаг 6. Оповестите заинтересованные стороны. Если инцидент был публичным или затронул клиентов — выпустите пояснение, извинитесь, предложите компенсацию, если требуется.

Шаг 7. Обновите документацию и обучение сотрудников, чтобы в будущем избегать подобных сценариев.

Главное правило: не замалчивайте галлюцинации. Это не баг, который можно скрыть. Это системная характеристика нейросетей. Чем быстрее вы признаете проблему и исправите её, тем меньше ущерба.

Когда галлюцинации допустимы, а когда — нет

В творческих задачах (генерация идей, написание черновиков, создание изображений) галлюцинация — не баг, а фича. Именно отклонение от наиболее вероятного даёт креативность. Высокая температура и свобода выдумки здесь приветствуются.

В фактологических задачах (ответы на вопросы по документам, юридические консультации, медицинские рекомендации, финансовые расчёты) галлюцинация недопустима. Здесь требуется точность, а не креативность. Используйте RAG, низкую температуру, жёсткие промты и многоступенчатую проверку.

В смешанных задачах (например, написание текста для блога, где есть и факты, и стиль) галлюцинации допустимы в стилистике, но не в фактах. Это сложный баланс. Решение: генерировать факты отдельно (через RAG с проверкой), а потом отдавать их креативной модели для «упаковки» в текст.

В следующей главе мы поговорим о конфиденциальности — о том, как не слить свои данные через промт и как строить безопасную инфраструктуру для работы с нейросетями.

Глава 2. Конфиденциальность: как не устроить утечку данных через промт

Галлюцинации — это про то, как нейросеть выдаёт неверное. Конфиденциальность — про то, как она получает то, что не должна. И эта тема для бизнеса часто оказывается даже более болезненной. Ошибку в факте можно исправить, извиниться, выплатить компенсацию. Утечку персональных данных, коммерческой тайны или адвокатской привилегии — почти никогда.

Проблема в том, что большинство пользователей нейросетей даже не задумываются, куда уходят их данные. Они копируют текст договора, вставляют в чат с публичной моделью и просят «найти риски». Они загружают в нейросеть финансовые отчёты, медицинские карты (обезличенные — как им кажется), исходный код закрытых проектов. И не знают, что эти данные могут быть использованы для дообучения модели, могут попасть в ответ другому пользователю или просто храниться на серверах в юрисдикции, где нет адекватной защиты.

Эта глава — о том, как строить работу с нейросетями, не превращая свою компанию в источник бесплатных данных для Big Tech.

Что происходит с данными, когда вы отправляете их в публичную нейросеть

Начнём с главного правила: если вы не платите за модель отдельно и не разворачиваете её у себя, ваши данные используются для обучения. Это не всегда так, но в подавляющем большинстве бесплатных и дешёвых публичных сервисов условие «мы можем использовать ваши данные для улучшения моделей» прописано мелким шрифтом в пользовательском соглашении.

Конкретные механики различаются. В одних сервисах ваши промты и ответы могут попадать в следующий раунд обучения модели — и тогда то, что вы написали, теоретически может всплыть в ответе другому пользователю. Такие случаи уже были: люди получали в чат-ботах фрагменты чужих диалогов, номера телефонов, даже пароли. В других сервисах данные хранятся в течение некоторого времени для анализа инцидентов и улучшения безопасности, но не используются для обучения. В третьих — данные удаляются сразу после генерации ответа, но это скорее исключение, особенно на бесплатных тарифах.

Ключевой момент: даже если компания обещает не использовать ваши данные для обучения, она всё равно может хранить их на своих серверах. А эти серверы могут быть взломаны. Или к ним может получить доступ персонал. Или они могут быть переданы по запросу властей — особенно если серверы находятся в США, Китае или других странах с обширными полномочиями спецслужб.

Отсюда первое практическое правило: никогда не отправляйте в публичную нейросеть данные, которые составляют коммерческую тайну, персональные данные (в смысле GDPR или 152-ФЗ), врачебную тайну, адвокатскую тайну, банковскую тайну или любые другие сведения с ограниченным доступом. Даже если вы обезличили их «на глаз» — этого недостаточно.

Что такое персональные данные и почему нейросеть — плохое место для них

Под персональными данными (в российском законодательстве — 152-ФЗ, в европейском — GDPR) понимается любая информация, относящаяся к прямо или косвенно определённому или определяемому физическому лицу. Имя, телефон, адрес, email, паспортные данные, ИНН, СНИЛС, геолокация, IP-адрес, cookie-идентификаторы, данные о здоровье, биометрия — всё это персональные данные.

Когда вы отправляете в нейросеть текст, содержащий такие данные, вы должны иметь для этого законное основание. В большинстве случаев для использования публичной нейросети такого основания нет. Согласие субъекта? Вряд ли. Исполнение договора? Если вы не договаривались с клиентом, что его данные пойдут в ChatGPT, — нет. Законный интерес? Очень спорно.

Штрафы за утечку персональных данных в России с 2023 года исчисляются миллионами рублей. В Европе — миллионами евро (до 4% глобального оборота). И утечкой считается не только взлом, но и неправомерная передача данных третьим лицам. А передача данных провайдеру нейросети за пределами вашей юрисдикции — это передача третьим лицам.

Поэтому запомните: нейросети — не место для персональных данных. Если вам нужно обработать текст, в котором есть ФИО, телефоны, адреса, — сначала удалите их (или псевдонимизируйте). Если нельзя удалить — используйте локальную модель или модель в защищённом облаке с подписанным DPA (соглашением об обработке данных).

Что такое коммерческая тайна и почему её нельзя светить

Коммерческая тайна — это информация, которая имеет действительную или потенциальную коммерческую ценность из-за неизвестности третьим лицам, и к которой у вас нет свободного доступа на законном основании. Алгоритмы, исходные коды, клиентские базы, финансовые модели, стратегии, переговорные позиции, чертежи, рецептуры — всё это может быть коммерческой тайной.

Если вы отправляете эту информацию в публичную нейросеть, вы её раскрываете. Технически вы передаёте её компании-провайдеру, который может использовать её для обучения (а значит, она попадёт в модель и теоретически может быть выдана другому пользователю). Вы теряете статус коммерческой тайны, потому что перестали принимать разумные меры по её сохранению. А если у вас есть соглашение о неразглашении с партнёрами, вы можете его нарушить.

Реальный случай: сотрудник технологической компании скопировал фрагмент проприетарного кода в чат с нейросетью, чтобы спросить, как оптимизировать функцию. Через несколько месяцев аналогичный код всплыл в ответах модели другим пользователям. Компания не смогла доказать, что код был украден именно так, но подозревала этот инцидент.

Конец ознакомительного фрагмента.

Текст предоставлен ООО «Литрес».

Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

Конец ознакомительного фрагмента
Купить и скачать всю книгу