Ссылка по теме: https://www.tensorflow.org/tutorials/sequences/audio_recognition
Как мне изменить мою учебную среду TensorFlow «Простое распознавание звука» (количество входных выборок, выбор ключевых слов триггера, параметры обучения и т. Д.), Чтобы получить надежное распознавание уникального ключевого слова триггера (несколько слов или одно- словом) в нормальном разговоре?
Оригинальное «Простое распознавание звука» TensorFlow включает в себя 10 ключевых слов с одним триггером, длительностью 1 секунда. Чтобы ключевые слова с одним триггером не обнаруживались в обычном разговоре и не вызывали ложных срабатываний, я 400 раз (100 раз 4 разных человека) записал два следующих ключевых слова с несколькими словами, длительностью 1,5 секунды: PLAY MUSIC, STOP MUSIC. Выполнив те же самые обучающие шаги и компенсировав новую 1,5-секундную длительность в коде, я получаю 100% -ное распознавание этих двух ключевых слов триггера, когда они произносятся правильно; однако дальнейшее тестирование также показывает, что я получаю ложные срабатывания во время нормальной речи, когда произнесена любая работа этих ключевых слов, например STOP BLA BLA BLA, STOP VIDEO, PLAY BLA BLA BLA, PLAY VIDEO и т. Д.
Спасибо за ваш добрый ответ,
PM