Создай голосового помощника. И научи бизнес летать
Создай голосового помощника. И научи бизнес летать

Полная версия

Создай голосового помощника. И научи бизнес летать

Язык: Русский
Год издания: 2026
Добавлена:
Настройки чтения
Размер шрифта
Высота строк
Поля
На страницу:
6 из 8

Вариант 3. Автоматическая эмоциональность (AI-уровень)

Некоторые нейросети (например, в Tovie или продвинутых настройках) умеют сами определять, с какой эмоцией нужно произнести фразу, исходя из контекста диалога. Если клиент расстроен, робот автоматически говорит с сочувствием. Это уже высший пилотаж.

Магия пауз: Тишина тоже говорит

Новички часто забывают про паузы. А зря. Пауза – это мощнейший инструмент.

– Пауза перед важной информацией привлекает внимание. «И самое главное… (пауза) …ваша скидка составляет 20%».

– Пауза после вопроса дает клиенту время подумать и ответить, не перебивая.

– Короткие паузы внутри длинных фраз делают речь удобоваримой. Помните: робот может говорить без остановки, но человеческий мозг так не умеет слушать.

В SSML паузы задаются тегом . Начинайте с пауз 300—500 мс между смысловыми блоками и экспериментируйте.

Практическое задание: Создаем портрет голоса

Прежде чем выбирать голос в интерфейсе платформы, сделайте простую письменную работу. Ответьте на вопросы:

– Пол: Мужской или женский?

– Возраст: Молодой (20—30), средний (30—50), зрелый (50+)?

– Темп речи: Быстрый (энергичный), средний, медленный (обстоятельный)?

– Эмоциональный фон: Какой основной настрой? (Дружелюбный, деловой, заботливый, энергичный?)

– Особые требования: Нужно ли произносить иностранные названия? Сложные технические термины?

Когда вы составите такой портрет, выбирать из десятков голосов станет намного проще.

Техническая настройка в платформе (на примере Aimylogic)

Давайте пройдемся по типовым шагам в конструкторе:

– В настройках проекта найдите раздел «Голос» или «TTS».

– Выберите провайдера: «Встроенные голоса», «Yandex SpeechKit», «Salute Speech» и т. д.

– Из выпадающего списка выберите конкретный голос. Обычно есть возможность прослушать пример прямо в интерфейсе.

– Настройте скорость речи (по умолчанию 1.0, можно сделать 0.9 для более спокойного темпа или 1.1 для энергичного).

– Если есть настройка тона (pitch), поэкспериментируйте с ней.

– Включите опцию «Использовать паузы по знакам препинания» (обычно включена по умолчанию).

– Для продвинутой настройки включите режим SSML и вставляйте разметку в текст ответов.

Резюме для внедрения

– Голос – это 50% успеха вашего помощника. Не относитесь к выбору голоса как к мелочи.

– Составьте портрет голоса на основе вашей целевой аудитории.

– Протестируйте 2—3 варианта на реальных людях, прежде чем утвердить.

– Используйте паузы – они делают речь естественной.

– Экспериментируйте с эмоциями – современные TTS умеют не просто читать, а чувствовать.

– Для старта используйте встроенные голоса платформы или подключите Yandex SpeechKit.

В следующей главе мы закончим настройку «органов чувств» нашего помощника и научим его слышать клиентов так же хорошо, как и говорить.

Глава 17. Распознавание речи (ASR): Чтобы помощник слышал и понимал даже с акцентом

Представьте, что вы пришли на важные переговоры с иностранным партнером. Вы говорите на хорошем английском, но у партнера – сильный акцент, шум в помещении и он иногда проглатывает окончания. Вы слушаете, напрягаетесь, переспрашиваете и… теряете нить разговора.

Примерно так чувствует себя голосовой помощник, если у него плохое распознавание речи.

В техническом мире эта технология называется ASR (Automatic Speech Recognition) – автоматическое распознавание речи. Это уши вашего помощника. И от того, насколько хороший у него слух, зависит ровно половина успеха всего проекта.

Потому что какая польза от гениального мозга (нейросети), если он получает на вход искаженный текст?

Почему ASR – это сложно (и почему хороший ASR стоит денег)

Распознать человеческую речь – одна из самых сложных задач в мире ИИ. Почему?

1. Акценты и диалекты

В России только официальных языков десятки. А уж вариаций русского языка – сотни. Человек из Ростова-на-Дону говорит иначе, чем человек из Вологды или из Татарстана. Хороший ASR должен понимать всех.

2. Шум

Клиенты звонят откуда угодно: с улицы (ветер, машины), из машины (шум мотора), из кафе (музыка, голоса), из дома (телевизор, дети). Распознавание должно отсекать этот шум и выделять голос.

3. Слова-паразиты и запинки

«Ну это… типа… я хотел бы… эээ… заказать… ну это… пиццу что ли». Человек понимает, о чем речь. ASR должен не запутаться в этом мусоре.

4. Специфическая лексика

Если у вас медицинский центр, клиент будет говорить «МРТ», «УЗИ», «стоматолог-ортопед». Если у вас автосервис – «сход-развал», «ступичный подшипник», «лямбда-зонд». ASR должен знать эти слова.

5. Скорость

Распознавание должно происходить в реальном времени, с минимальной задержкой. Клиент не должен ждать по 2—3 секунды, пока робот «переварит» услышанное.

Как работает современный ASR (очень просто)

Раньше системы распознавания работали по принципу «сравнения с эталоном». В них были зашиты словари произношения, и они пытались подобрать звуки к словам.

Современный ASR – это тоже нейросети. Они обучаются на тысячах часов разнообразной речи (с акцентами, шумами, ошибками) и учатся выделять паттерны. Нейросеть не «знает» слова, она «чувствует», что за последовательность звуков с наибольшей вероятностью образует осмысленную фразу.

Лучшие ASR-системы сегодня:

– Yandex SpeechKit (отличное распознавание русского языка, огромное количество обучающих данных)

– Salute Speech (Сбер) (сильный конкурент, особенно в связке с другими сервисами Сбера)

– Google Cloud Speech-to-Text (мировой лидер, но сложности с доступом из РФ)

– OpenAI Whisper (очень мощная opensource-модель, но требует технических навыков для настройки)

Как оценить качество ASR: Метрика WER

В мире распознавания есть главный показатель – WER (Word Error Rate) – частота ошибок в словах.

Простыми словами: сколько слов из ста ASR распознал неправильно.

– WER 5—10% – отличный результат.

– WER 10—20% – приемлемый для простых диалогов.

– WER> 20% – клиенты будут беситься от переспросов.

Хорошие современные системы держат WER в районе 5—7% для чистой речи и 10—15% для речи с шумами.

Выбор ASR для вашего проекта

В большинстве конструкторов голосовых помощников (Aimylogic, Tovie и др.) ASR уже встроен и настроен. Вам, как бизнесмену, обычно не нужно выбирать конкретную технологию – она идет «в комплекте» с платформой.

Однако важно понимать, какой ASR использует ваша платформа, и при необходимости его можно улучшить.

Вариант 1. Встроенный ASR платформы

Например, Aimylogic использует собственные разработки и интеграции с ведущими провайдерами. Для 90% задач этого достаточно.

Вариант 2. Подключение внешнего ASR через API

Если у вас специфическая лексика или особые требования, можно подключить внешний ASR:

– Yandex SpeechKit: Отличный выбор для русского языка. Легко интегрируется.

– Salute Speech: Хорош, если вы уже используете экосистему Сбера.

– Google Cloud Speech-to-Text: Если вам нужно распознавание на десятках языков (международный бизнес).

Как улучшить распознавание: Практические советы

Даже самый лучший ASR можно «натренировать» лучше понимать ваших клиентов. Вот что вы можете сделать.

Совет 1. Кастомизируйте словарь (Важно!)

Это самый действенный способ. Почти все ASR-системы позволяют загружать кастомный словарь – список специфических слов, терминов, названий, которые часто используют ваши клиенты.

Что загружать:

– Названия ваших продуктов (если они нестандартные).

– Профессиональные термины (МРТ, УЗИ, сайлентблок, термостат).

– Имена и фамилии сотрудников.

– Адреса, названия улиц.

Когда вы загружаете словарь, вы как бы говорите ASR: «Слушай, если услышишь что-то похожее на „сайлентблок“ – это точно сайлентблок, не пытайся распознать как „сайлент блок“ или „силент блок“».

Совет 2. Обучайте на реальных диалогах (Fine-tuning)

Некоторые продвинутые ASR (например, Yandex SpeechKit) позволяют дообучать модель на ваших реальных записях разговоров. Вы даете системе 100—200 расшифрованных диалогов (где текст идеально совпадает с речью), и она учится лучше понимать именно ваших клиентов, с их акцентами и особенностями.

Это требует некоторых усилий, но дает огромный прирост качества.

Совет 3. Используйте контекст

ASR работает лучше, если знает контекст. Если ваш помощник находится в ветке диалога про доставку, можно подсказать ASR: «сейчас клиент будет говорить про адрес, поэтому ищи слова „улица“, „дом“, „квартира“, „подъезд“». Это повышает точность.

Совет 4. Обрабатывайте шум

Научите клиентов говорить в тишине. Звучит смешно, но можно добавить в приветствие фразу: «Если вы находитесь в шумном месте, постарайтесь говорить чуть громче и четче». Это реально помогает.

Акценты: Как быть, если клиенты говорят с акцентом

Россия – многонациональная страна. Если ваш бизнес работает в регионах, вы столкнетесь с акцентами. Это нормально.

Что делать:

– Выбирайте ASR, обученный на разнообразной речи. Yandex SpeechKit, например, обучался на огромном массиве данных, включая речь с акцентами.

– Собирайте записи. Когда вы начнете получать реальные звонки от клиентов с акцентом, сохраняйте те, где распознавание сработало плохо.

– Используйте их для дообучения. Если есть возможность дообучения (fine-tuning), используйте эти записи, чтобы научить ASR понимать именно ваш региональный акцент.

– Упрощайте сценарий. Если вы знаете, что в вашем регионе много клиентов с сильным акцентом, делайте сценарий максимально простым, с короткими вопросами и четкими вариантами ответов. Меньше свободы – меньше шансов на ошибку распознавания.

Техническая настройка в платформе (на примере)

Давайте посмотрим, как обычно выглядит настройка ASR в конструкторе.

– В настройках проекта найдите раздел «Распознавание речи» или «ASR».

– Выберите провайдера (Yandex, Google, Сбер, встроенный).

– Загрузите кастомный словарь (обычно это текстовый файл со списком слов, по одному в строке).

– Настройте чувствительность (иногда есть ползунок «агрессивность распознавания» – стоит поэкспериментировать).

– Включите опции:

– «Распознавание пауз» (чтобы определять, когда клиент закончил говорить).

– «Фильтрация слов-паразитов» (чтобы отсеивать «эээ», «ммм», «типа»).

– «Нормализация чисел» (чтобы «500» распознавалось как «пятьсот», а не «пятьсот» текстом).

Как проверить качество ASR

После настройки обязательно проведите тестирование.

– Запишите 10—20 реальных или имитированных звонков от разных людей (с разными голосами, с разным фоном).

– Прослушайте записи и рядом откройте расшифровку, которую выдал ASR.

– Посчитайте ошибки. В скольких словах ASR ошибся? Если ошибок много (больше 10—15% значимых слов) – нужно менять настройки или провайдера.

– Обратите внимание на ключевые слова. Самое страшное – когда ASR неправильно распознает важную информацию: дату, время, сумму, адрес. Если робот переспрашивает «Вы сказали 1000 или 7000?» – это приемлемо. Если он молча записывает не ту сумму – это катастрофа.

Резюме для внедрения

– ASR – это уши вашего помощника. Без хорошего слуха самый умный мозг бесполезен.

– Используйте кастомные словари. Это самый простой и эффективный способ улучшить распознавание специфических терминов.

– Учитывайте акценты и шум. Выбирайте ASR, который обучен на разнообразной речи.

– Тестируйте на реальных клиентах. Не верьте демо-версиям, проверяйте на тех, кто будет реально звонить.

– Для старта используйте ASR, встроенный в вашу платформу. Если начнутся проблемы – подключайте Yandex SpeechKit или Salute Speech.

Теперь ваш помощник обрел и мозг, и голос, и слух. Он готов слышать клиентов, понимать их и красиво отвечать. В следующей главе мы наведем порядок в его «рабочем столе».

Глава 18. Настройка рабочего пространства: Как организовать файлы и проекты, чтобы не запутаться

Представьте, что вы решили построить дом. У вас есть чертежи, материалы, инструменты. Но все свалено в одну кучу: гвозди перемешаны с документами, кирпичи лежат на чертежах, а инструменты разбросаны по всему участку. Сколько времени вы потратите, чтобы найти нужный гвоздь? А сколько сил уйдет на то, чтобы не забыть, где какой чертеж лежит?

Примерно в таком хаосе живут 90% начинающих создателей голосовых помощников. И этот хаос убивает больше проектов, чем плохие нейросети.

Когда у вас один проект и вы только учитесь – можно работать и в бардаке. Но когда проектов станет два, три, когда вы начнете их дорабатывать, тестировать новые версии – без порядка вы просто утонете.

Сегодня мы научимся наводить порядок в нашем цифровом пространстве. Это скучная, но критически важная глава. Отнеситесь к ней как к инвестиции в свое будущее спокойствие.

Почему порядок важен: Три причины

Причина 1. Скорость

Когда у вас всё организовано, вы тратите секунды на поиск нужного файла, а не часы на мучительные воспоминания «куда же я это сохранил».

Причина 2. Безопасность

Организованное пространство легче备份ить (делать резервные копии). А резервные копии – это ваша страховка от того, что весь труд не сгорит в один день.

Причина 3. Масштабирование

Рано или поздно вы захотите передать проект другому человеку (сотруднику, подрядчику). Если у вас хаос, передача превратится в кошмар. Если порядок – человек разберется за час.

Уровень 1. Организация файлов на компьютере

Начнем с самого простого – с вашего компьютера. Именно здесь хранятся все черновики, скрипты, записи и настройки.

Правило 1. Единая корневая папка

Создайте на компьютере папку с названием Voice_Assistants или Голосовые_помощники. В этой папке будут жить все проекты. Никаких файлов на рабочем столе, в «Загрузках» или в «Документах» вперемешку с личными фото.

Правило 2. Структура внутри проекта

Внутри корневой папки создавайте отдельную папку для каждого проекта. Называйте папки понятно: Клиника_Здоровье_2025, Магазин_Цветы_Апрель, Тестовый_помощник_для_обучения.

Внутри папки проекта создайте единую структуру:

text

Название_проекта/

├── 01_Сценарии/ (тут текстовые файлы с диалогами)

├── 02_Промпты/ (тут все версии промптов для нейросетей)

├── 03_База_знаний/ (тут документы, прайсы, инструкции для загрузки)

├── 04_Аудио/ (тут записи тестовых звонков, примеры голосов)

├── 05_Логи/ (тут отчеты и расшифровки диалогов для анализа)

└── 06_Настройки/ (тут скриншоты настроек, API-ключи (в безопасном виде))

Правило 3. Версионность (самое важное!)

Вы будете менять сценарии и промпты десятки раз. Никогда не сохраняйте поверх старого файла! Это путь к катастрофе, когда вы захотите откатиться к рабочей версии, а её уже нет.

Как делать правильно:

– scenario_v1.txt

– scenario_v2.txt

– scenario_v2_1.txt (маленькое изменение)

– scenario_v3_FINAL. txt

– scenario_v4_AFTER_TEST. txt

Да, файлов станет много. Но это лучше, чем потерять рабочую версию.

Правило 4. README-файл

В корне каждого проекта создайте простой текстовый файл README. txt. И запишите туда самую важную информацию:

– Какая нейросеть используется?

– Какой API-ключ к какому аккаунту привязан? (сами ключи не пишите, но напишите, где их искать).

– Какие есть особенности проекта?

– Кто последний вносил изменения и когда?

– Ссылка на проект в облачной платформе.

Это займет 5 минут, но через полгода спасет вам часы жизни.

Уровень 2. Организация внутри платформы

Теперь перейдем к тому, как организовать проекты внутри самого конструктора (Aimylogic, Tovie и др.).

Правило 1. Единая система нейминга (именования)

Не называйте проекты «новый проект», «проект 1», «тест», «фыва». Это ад.

Придумайте систему, например:

– [Компания] _ [Назначение] _ [Дата] _ [Версия]

– Stomatologia_Zapis_v2_2025—04

– Magazin_Obzvon_test_1

– Klinika_Support_prod

В названии сразу должно быть понятно: кто, зачем и когда.

Правило 2. Отделяйте тестовые проекты от боевых

Никогда не экспериментируйте в том же проекте, который работает с реальными клиентами!

Создайте отдельный проект (или даже отдельный аккаунт) для тестов и экспериментов. Назовите его SANDBOX или Песочница. Там можно ломать всё что угодно, пробовать новые фичи, рисковать. А боевой проект должен жить своей жизнью и меняться только после того, как всё оттестировано в песочнице.

Правило 3. Используйте комментарии

В большинстве платформ можно оставлять комментарии к блокам, кнопкам, веткам сценария. Используйте эту возможность!

Пишите комментарии для себя (и для будущих коллег):

– «Этот блок обрабатывает жалобы»

– «Здесь мы проверяем, хочет ли клиент записаться»

– «Внимание: тут дорогой API-запрос, не злоупотреблять»

Через месяц вы забудете, зачем поставили этот блок. Комментарий напомнит.

Правило 4. Контроль версий внутри платформы

Многие платформы (например, Aimylogic) хранят историю изменений. Вы всегда можете откатиться на предыдущую версию. Научитесь пользоваться этой функцией! Перед большими изменениями делайте снимок (snapshot) или сохраняйте копию проекта под новым именем.

Уровень 3. Организация API-ключей и паролей

Это самое опасное место. Потеря ключа или его кража могут стоить вам денег и репутации.

Правило 1. Менеджер паролей (обязательно!)

Перестаньте хранить ключи в текстовых файлах на рабочем столе. Используйте менеджеры паролей:

– KeePass (бесплатный, офлайн)

– Bitwarden (бесплатный, облачный)

– 1Password (платный, удобный)

– LastPass (платный, популярный)

В менеджере паролей создайте отдельную папку «API Keys» и храните там все ключи с понятными названиями.

Правило 2. Никогда не публикуйте ключи

API-ключ в коде, который вы выложили на GitHub – это классическая ошибка новичка. Хакеры сканируют GitHub в поисках ключей и начинают пользоваться ими за ваш счет за минуты.

Если нужно поделиться ключом с коллегой – используйте защищенные каналы и передавайте лично, а лучше дайте коллеге доступ к аккаунту через его собственный логин.

Правило 3. Разные ключи для разных проектов

Не используйте один ключ для всех проектов. Если один проект скомпрометируют, пострадают все. Создавайте отдельные ключи для каждого проекта. В OpenAI и Yandex Cloud это легко сделать.

Уровень 4. Организация базы знаний

База знаний – это документы, прайсы, инструкции, которыми вы «кормите» нейросеть. Если там бардак, помощник будет путаться.

Правило 1. Единый источник правды

Все данные для помощника должны храниться в одном месте. Не держите часть прайса в Excel, часть в Word, а часть в уме.

Создайте папку База_знаний в проекте и сложите туда все актуальные файлы. Устаревшие версии удаляйте или перемещайте в папку Архив.

Правило 2. Форматируйте для нейросети

Тексты для нейросети должны быть чистыми. Уберите лишнее форматирование, картинки, сложные таблицы. Лучший формат – простой текст (TXT) или Markdown (MD).

Если данные в Excel, преобразуйте их в удобочитаемый текст: «Товар: Пицца Пепперони. Цена: 590 руб. Состав:…» Это нейросеть поймет лучше, чем ячейки таблицы.

Правило 3. Регулярно обновляйте

Поставьте напоминание раз в месяц: «Обновить базу знаний». Цены меняются, акции заканчиваются, появляются новые услуги. Если помощник будет выдавать старую информацию, клиенты разозлятся.

Уровень 5. Организация процесса (рабочий поток)

Теперь про то, как организовать сам процесс работы.

Правило 1. Чек-листы

Создайте простые чек-листы для повторяющихся действий. Например, чек-лист перед запуском нового помощника:

– Проверены все ветки сценария

– Загружена актуальная база знаний

– Настроен ASR с кастомным словарем

– Выбран и протестирован голос

– Настроена интеграция с CRM

– Сделано 10 тестовых звонков

– Исправлены найденные ошибки

– Создана резервная копия проекта

Чек-листы страхуют от дурацких ошибок, когда забыл что-то важное.

Правило 2. Регулярные бэкапы

Раз в неделю (или перед каждым крупным изменением) делайте резервную копию проекта. В большинстве платформ есть функция экспорта. Скачивайте архив и сохраняйте в папку Бэкапы на компьютере или в облаке.

Правило 3. Документирование изменений

Ведите простой файл CHANGELOG. txt в папке проекта. Записывайте туда кратко:

– 10.04: Изменен промпт, добавлена эмпатия к злым клиентам.

– 12.04: Добавлен новый вопрос про доставку в выходные.

– 15.04: Обновлена база знаний (новые цены).

Когда через месяц что-то сломается, вы сможете посмотреть, что меняли, и быстро найти причину.

Пример идеальной структуры

Давайте соберем всё вместе. Вот как может выглядеть идеально организованное рабочее пространство для одного проекта.

На компьютере:

text

D:\Voice_Projects\

├── Stomatia_Dental_Prod/

│ ├── 01_Сценарии/

│ │ ├── main_scenario_v1.txt

│ │ ├── main_scenario_v2.txt

│ │ └── main_scenario_v3_FINAL. txt

│ ├── 02_Промпты/

│ │ ├── system_prompt_v1.txt

│ │ └── system_prompt_v2.txt

│ ├── 03_База_знаний/

│ │ ├── services_2025—04.txt

│ │ ├── prices_2025—04.txt

│ │ └── faq. txt

│ ├── 04_Аудио/

│ │ ├── test_calls_2025-04-10/

│ │ └── voice_samples/

│ ├── 05_Логи/

│ │ ├── call_logs_2025-04-10.csv

│ │ └── errors_analysis. txt

│ ├── 06_Настройки/

│ │ ├── integration_settings. txt

│ │ └── screenshot_settings.png

│ ├── README. txt

│ └── CHANGELOG. txt

└── Stomatia_Dental_Test/

(такая же структура, но для тестов)

В менеджере паролей:

text

Папка: API Keys

– Stomatia_Dental_YandexGPT_key

– Stomatia_Dental_SpeechKit_key

– Stomatia_Dental_OpenAI_key (если используется)

В платформе Aimylogic:

text

Проекты:

– Stomatia_Dental_Prod (боевой)

– Stomatia_Dental_Test (тестовый)

– Stomatia_Dental_Sandbox (песочница для экспериментов)

Резюме для внедрения

– Начните с чистого листа. Прямо сейчас создайте корневую папку и структуру для вашего первого проекта.

– Дисциплинируйте себя. Первую неделю будет лень раскладывать всё по полочкам. Пересильте себя. Через месяц вы скажете себе спасибо.

– Документируйте. README и CHANGELOG – ваши лучшие друзья.

– Бэкапы, бэкапы, бэкапы. Лучше перебдеть, чем недобдеть.

Помните: организация – это не скучная бюрократия. Это инвестиция в ваше будущее время и нервные клетки. Хорошо организованный проект приносит радость, а не головную боль.

Глава 19. Промпт-инжиниринг для чайников: Как правильно давать задания нейросети, чтобы она не «глючила»

На страницу:
6 из 8