Podlodka #292 – Распознавание речи
подкаст
Подкаст: Podlodka Podcast
Жанр: программирование информационные технологии (IT) разработка программного обеспечения технология разработки разработка мобильных приложений
Язык: Русский
Возрастное ограничение: 12
Длительность: 85 минут 4 секунды
Последнее обновление:
Добавлен:
В эфире ваша любимая рубрика: «как устроены сложные штуки» . Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений.
Поддержи лучший подкаст про IT:
patreon.com/podlodka
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: t.me/podlodka
Telegram-канал: t.me/podlodkanews
Страница в Facebook: facebook.com/podlodkacast/
Twitter-аккаунт: twitter.com/PodlodkaPodcast
Ведущие в выпуске:
Катя Петрова, Стас Цыганов
Полезные ссылки:
- web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке)
- deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи)
- kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода)
- habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания)
- github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi)
- openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи)
- openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices)
- t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым)
- github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи)
- maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2)
- jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках)
- huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи)
- huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи)
- kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей)
- habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только)
- habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему)
- researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate)
- github.com/bond005 (гитхаб Ивана)