Я ищу API для преобразования разговорных элементов в текст на iOS, но в основном для цифр и букв, таких как 1, 2, 3, 4 и a, b, c, d.
Я пробовал OpenEars, как предлагали многие, но, похоже, он поддерживает только некоторые орды, такие как «ПЕРЕЙТИ ВПЕРЕД НАЗАД ВПРАВО ВПРАВО ОСТАНОВИТЬ ВПРАВО». Может ли оно использоваться для распознавания общих слов или произнесенных чисел?
Я также попробовал API iSpeech, но когда я произношу строку чисел, такую как 12345, он может вернуть только текст «один два три четыре пять», и он может дать мне только результат распознавания вместо список догадок (например, API распознавания голоса Google на Android).
Как я могу использовать любой из этих API (или другой вариант) для распознавания произносимых цифр или букв?