R: язык Tesseract OCR движок - PullRequest
       8

R: язык Tesseract OCR движок

0 голосов
/ 08 января 2020

Я пытаюсь читать корейский язык с помощью механизма распознавания текста Tesseract. Я использую изображение ниже, но когда я запускаю свой код, я получаю странный результат.

Document in Korean

library(tesseract)

file_input <- "path/to/image.jpg"

text <- tesseract::ocr(file_input, engine = "kor")
results <- tesseract::ocr_data(file_input, engine="kor")
view(results)

Когда я просматриваю результаты, я получаю вместо этого странные символы.

1   留<88>   0.00000 9,3,44,9
2   <eb>늻   0.00000 50,3,65,9
3   <eb>뱶   0.00000 71,3,76,9
4   <ec>궗   0.00000 77,3,93,9
5   泥<b4>   0.00000 94,3,103,9
6   8   17.72089    124,3,134,9
7   1901087000014131    0.00000 9,12,94,19
8   <ed>떚   0.00000 97,12,113,18
9   湲곌눼 33.42520    116,12,130,18
10  1809    0.00000 3,80,37,108
11  <ed>뵾   51.07636    40,92,42,99
12  <eb>씈   0.00000 11,102,27,109
13  瑜<b4>   0.00000 28,103,32,108
...  

... и tesseract_info() показывает, что у меня есть язык kor.

$available
[1] "eng" "kor" "osd"

$version
[1] "4.1.0"

$configs
 [1] "alto"             "ambigs.train"     "api_config"       "bigram"          
 [5] "box.train"        "box.train.stderr" "digits"           "get.images"      
 [9] "hocr"             "inter"            "kannada"          "linebox"         
[13] "logfile"          "lstm.train"       "lstmbox"          "lstmdebug"       
[17] "makebox"          "pdf"              "quiet"            "rebox"           
[21] "strokewidth"      "tsv"              "txt"              "unlv"            
[25] "wordstrbox"

Есть какие-либо решения этой проблемы? Спасибо.

...