Question

Google выпустил Набор данных речевых команд . Я вижу, что все аудиофайлы имеют частоту дискретизации 16 кГц. Это означает, что любая информация от 8 кГц и выше ненадежна (человеческий слуховой диапазон от 20 Гц до 20 кГц). Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 до 20 кГц, и их потеря означает меньшую точность и надежность распознавания голоса.

Почему Google сделал выбор в 16 кГц? я что-то упустил?

Спасибо.

Nikolay Shmyrev · Answer 1 · 22 сентября 2018

Это чрезвычайно важно для распознавания голоса, потому что (не большинство, но) много важных данных находится в диапазоне от 8 кГц до 20 кГц

На самом деле нет, многие эксперименты показывают, чтопочти нет улучшения от использования более высокой частоты дискретизации.Вот почему каждый использует 16 кГц.

Почему набор данных речевых команд от Google имеет частоту дискретизации 16 кГц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему набор данных речевых команд от Google имеет частоту дискретизации 16 кГц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы