Почему набор данных речевых команд от Google имеет частоту дискретизации 16 кГц - PullRequest
0 голосов
/ 07 сентября 2018

Google выпустил Набор данных речевых команд . Я вижу, что все аудиофайлы имеют частоту дискретизации 16 кГц. Это означает, что любая информация от 8 кГц и выше ненадежна (человеческий слуховой диапазон от 20 Гц до 20 кГц). Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 до 20 кГц, и их потеря означает меньшую точность и надежность распознавания голоса.

Почему Google сделал выбор в 16 кГц? я что-то упустил?

Спасибо.

1 Ответ

0 голосов
/ 22 сентября 2018

Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 кГц до 20 кГц

На самом деле нет, многие эксперименты показывают, чтопочти нет улучшения от использования более высокой частоты дискретизации.Вот почему каждый использует 16 кГц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...