Я пытаюсь использовать API Apple SFSpeechRecognizer
для распознавания японских символов (хирагана, катакана, кандзи). У меня есть распознаватель, настроенный на использование буфера от микрофона. Само распознавание работает хорошо для слов и предложений при настройке его с языковым стандартом "ja_JP".
Однако для моих нужд мне нужно распознавать только японские символы, а не слова. По моему опыту использования SFSpeechRecognizer
(который не очень длинный) кажется, что он предназначен для распознавания слов, а не отдельных символов. Например, когда я говорю некоторые символы, это возвращает мне правильный символ. Но для других (которые, я думаю, ближе звучат к реальным словам), это возвращает мне реальное японское слово, которое может иметь или не иметь нужный мне символ.
Я пробовал различные SFSpeechRecognitionTaskHint
настройки, но это, похоже, не помогает. Я также пытался заглянуть в массив result.transcriptions
обратного вызова SFSpeechRecognitionTask
, но на самом деле я не вижу альтернативных транскрипций с символами, которые я ищу.
Есть ли конкретная настройка, которая Я могу использовать, чтобы просто быть в состоянии распознать буквы? Или есть другой способ распознавания фонетики, независимо от языка (тогда я мог бы сопоставить звук phoneti c со звуками персонажа)? Я использую не тот инструмент для этой работы?
Я надеялся использовать API Apple, но мне интересно, стоит ли мне рассматривать другой API, такой как Google Speech To Text API. Хотя этот не свободен, который является обломом. Кроме того, я не уверен, что даже этот поможет мне с конкретной проблемой, с которой я сталкиваюсь.
Большое спасибо за любые советы.