То, чего вы хотите достичь, - это довольно сложная и нетривиальная задача, с которой можно столкнуться на нескольких уровнях. Прежде всего, вы должны ответить на вопрос для себя:
Что вы имеете в виду под « аккуарностью »? Какие метри c вы хотите использовать для этого? Точность означает сравнение результата с его оптимальным. Итак, что было бы оптимальным при произнесении «Apple»? level : Вот несколько показателей корреляции, с помощью которых можно вычислить сходство двух аудиофайлов. См., Например, здесь для получения более подробной информации. Ясно, что идея заключается в прямом сравнении аудиосэмплов. В вашем случае вам понадобится эталонная звуковая дорожка, которая является «правильным» результатом. Однако правильное выравнивание времени может стать проблемой.
На уровне распознавание речи : вы можете использовать распознаватель речи - коммерческий или открытый - и вернуть строку произнесенных слов. В этом случае вам следует подумать о том, когда запись будет остановлена, чтобы ограничить длину записи. Затем вам нужно подумать о метрике c, которая оценивает правильность транскрипции. Некоторые из них, с которыми я работал, это Levensthein-Distance или Word-Error-Rate . С их помощью вы можете вычислить сходство.