Podlodka #292 – Распознавание речи

подкаст

Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла

Подкаст: Podlodka Podcast

Жанр: программирование информационные технологии (IT) разработка программного обеспечения технология разработки разработка мобильных приложений

Язык: Русский

Возрастное ограничение: 12

Длительность: 85 минут 4 секунды

Последнее обновление: 17.06.2024

Добавлен: 17.06.2024

О подкасте

В эфире ваша любимая рубрика: «как устроены сложные штуки» . Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений. Поддержи лучший подкаст про IT: patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!  Telegram-чат: t.me/podlodka Telegram-канал: t.me/podlodkanews Страница в Facebook: facebook.com/podlodkacast/ Twitter-аккаунт: twitter.com/PodlodkaPodcast Ведущие в выпуске: Катя Петрова, Стас Цыганов Полезные ссылки: - web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке) - deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи) - kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода) - habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания) - github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi) - openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи) - openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices) - t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым) - github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи) - maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2) - jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках) - huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи) - huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи) - kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей) - habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только) - habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему) - researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate) - github.com/bond005 (гитхаб Ивана)