Исправление неправильной кодировки в ответе Google Speech-to-text API - PullRequest
0 голосов
/ 04 июня 2019

Я настраиваю приложение barebones Speech-to-text на румынском языке, а возвращаемый файл не распознает специальные символы.

После запуска команды

$ gcloud ml speech recognize ./foo.wav --language-code='ro-RO' > foo.txt

Открытие файла в текстовом редакторе показывает

"фолозная сказка с вульгарной воронгой виргульской"

, тогда как ожидаемый результат:

"Сказки народных сказок с ворбим ку виргулэ чи пунтэ"

Я предпринял несколько преобразований с помощью iconv, но безуспешно, как:

$ iconv -f us-ascii -t utf-8 foo.txt > foo2.txt
$ iconv -f ascii -t utf-8 foo.txt > foo2.txt

Ничто из того, что я могу придумать (правда, мало), похоже, не работает. Есть ли способ заставить редактор отображать эти символы без создания всего скрипта, чтобы анализировать текст и размещать их там, где это необходимо?

...