Я пытаюсь читать корейский язык с помощью механизма распознавания текста Tesseract. Я использую изображение ниже, но когда я запускаю свой код, я получаю странный результат.
library(tesseract)
file_input <- "path/to/image.jpg"
text <- tesseract::ocr(file_input, engine = "kor")
results <- tesseract::ocr_data(file_input, engine="kor")
view(results)
Когда я просматриваю результаты, я получаю вместо этого странные символы.
1 留<88> 0.00000 9,3,44,9
2 <eb>늻 0.00000 50,3,65,9
3 <eb>뱶 0.00000 71,3,76,9
4 <ec>궗 0.00000 77,3,93,9
5 泥<b4> 0.00000 94,3,103,9
6 8 17.72089 124,3,134,9
7 1901087000014131 0.00000 9,12,94,19
8 <ed>떚 0.00000 97,12,113,18
9 湲곌눼 33.42520 116,12,130,18
10 1809 0.00000 3,80,37,108
11 <ed>뵾 51.07636 40,92,42,99
12 <eb>씈 0.00000 11,102,27,109
13 瑜<b4> 0.00000 28,103,32,108
...
... и tesseract_info()
показывает, что у меня есть язык kor
.
$available
[1] "eng" "kor" "osd"
$version
[1] "4.1.0"
$configs
[1] "alto" "ambigs.train" "api_config" "bigram"
[5] "box.train" "box.train.stderr" "digits" "get.images"
[9] "hocr" "inter" "kannada" "linebox"
[13] "logfile" "lstm.train" "lstmbox" "lstmdebug"
[17] "makebox" "pdf" "quiet" "rebox"
[21] "strokewidth" "tsv" "txt" "unlv"
[25] "wordstrbox"
Есть какие-либо решения этой проблемы? Спасибо.