Вычислить процент точности, с которой пользователь издал назначенный звук - PullRequest
0 голосов
/ 11 июля 2020

Я хочу разработать веб-приложение для своего двоюродного брата, которому 2 года, в котором я реализовал функциональность, в которой при нажатии на изображение воспроизводится какой-то звук, и пользователь должен издавать тот же звук, который записывается .

Например, если я нажимаю на изображение «Apple», воспроизводится звук «A для Apple». Теперь пользователь должен произнести те слова, которые будут записаны.
Теперь я хочу: вычислить процент точности, с которой говорил пользователь . Я хочу знать, как я могу узнать процент точности. Я раньше не использовал машинное обучение или обработку естественного языка, поэтому мне нужны некоторые рекомендации о том, что мне следует узнать или Мне нужна помощь в этом.

Также довольно часто используются фреймворки nodejs, поэтому есть ли какой-либо модуль в nodejs, с помощью которого может быть выполнено вышеуказанное требование.

1 Ответ

0 голосов
/ 14 июля 2020

То, чего вы хотите достичь, - это довольно сложная и нетривиальная задача, с которой можно столкнуться на нескольких уровнях. Прежде всего, вы должны ответить на вопрос для себя:

Что вы имеете в виду под « аккуарностью »? Какие метри c вы хотите использовать для этого? Точность означает сравнение результата с его оптимальным. Итак, что было бы оптимальным при произнесении «Apple»? level : Вот несколько показателей корреляции, с помощью которых можно вычислить сходство двух аудиофайлов. См., Например, здесь для получения более подробной информации. Ясно, что идея заключается в прямом сравнении аудиосэмплов. В вашем случае вам понадобится эталонная звуковая дорожка, которая является «правильным» результатом. Однако правильное выравнивание времени может стать проблемой.

На уровне распознавание речи : вы можете использовать распознаватель речи - коммерческий или открытый - и вернуть строку произнесенных слов. В этом случае вам следует подумать о том, когда запись будет остановлена, чтобы ограничить длину записи. Затем вам нужно подумать о метрике c, которая оценивает правильность транскрипции. Некоторые из них, с которыми я работал, это Levensthein-Distance или Word-Error-Rate . С их помощью вы можете вычислить сходство.

...