Работает ли TensorFlow Audio / Speech Recognition с ключевыми словами запуска из нескольких слов? - PullRequest
0 голосов
/ 14 января 2019

Ссылка по теме: https://www.tensorflow.org/tutorials/sequences/audio_recognition

Как мне изменить мою учебную среду TensorFlow «Простое распознавание звука» (количество входных выборок, выбор ключевых слов триггера, параметры обучения и т. Д.), Чтобы получить надежное распознавание уникального ключевого слова триггера (несколько слов или одно- словом) в нормальном разговоре?

Оригинальное «Простое распознавание звука» TensorFlow включает в себя 10 ключевых слов с одним триггером, длительностью 1 секунда. Чтобы ключевые слова с одним триггером не обнаруживались в обычном разговоре и не вызывали ложных срабатываний, я 400 раз (100 раз 4 разных человека) записал два следующих ключевых слова с несколькими словами, длительностью 1,5 секунды: PLAY MUSIC, STOP MUSIC. Выполнив те же самые обучающие шаги и компенсировав новую 1,5-секундную длительность в коде, я получаю 100% -ное распознавание этих двух ключевых слов триггера, когда они произносятся правильно; однако дальнейшее тестирование также показывает, что я получаю ложные срабатывания во время нормальной речи, когда произнесена любая работа этих ключевых слов, например STOP BLA BLA BLA, STOP VIDEO, PLAY BLA BLA BLA, PLAY VIDEO и т. Д.

Спасибо за ваш добрый ответ, PM

1 Ответ

0 голосов
/ 16 января 2019

Вы должны были добавить мусорную речь в набор обучающих данных, не уверен, что вы это сделали.

Для очень длинных фраз более надежно обнаруживать более мелкие фрагменты и гарантировать, что все они присутствуют - то есть иметь отдельный детектор для «воспроизведения» и «музыки».

Например, Google по отдельности обнаруживает «ok» и «google» в их «ok google», как описано в МАЛЕНЬКОЕ ПЕЧАТЬ КЛЮЧЕВОГО СЛОВА, РАСПРОСТРАНЯЯСЯ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ .

...