Google выпустил Набор данных речевых команд . Я вижу, что все аудиофайлы имеют частоту дискретизации 16 кГц. Это означает, что любая информация от 8 кГц и выше ненадежна (человеческий слуховой диапазон от 20 Гц до 20 кГц). Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 до 20 кГц, и их потеря означает меньшую точность и надежность распознавания голоса.
Почему Google сделал выбор в 16 кГц? я что-то упустил?
Спасибо.