Тессеракт в R не распознает мелкие шрифты в том же документе - PullRequest
0 голосов
/ 20 сентября 2018

Имея опыт работы с R на уровне R и попросив написать коды для преобразования текста из изображений в текстовый файл, я борюсь с пакетами Tesseract и Magick.

Я, к сожалению, не смогу загрузить исходный документ, так как он является конфиденциальным, но я старался изо всех сил скопировать его в фиктивное изображение, которое прилагается.Оригинал структурирован аналогично приложенному примеру.

Документ содержит строку очень мелкими шрифтами .Код, который я запускаю, правильно читает большинство шрифтов, но не читает шрифты, которые намного меньше по размеру (примерно 6-6,5 размера шрифта или меньше в MS Word.)

Этоогромная проблема, потому что самая важная часть информации, заключающаяся в меньших шрифтах и ​​неспособности ее прочитать, делает практически бесполезным весь процесс преобразования

Я следовал 2 различным версиямкод и оба они поставлены с их на множество задач: -

Версия 1 ->

text5 <- ocr("D:/abc/dummy.PNG")
cat(text5)
write.table(text5, "D:/abc/Outputs/dummy.txt", sep="\t")

Проблема с версией 1 -> Вывод генерируется за несколько секунд, все почти идеально, , но текст ввода мелкими шрифтами совсем не приемлем.

Версия 2 -->

test2 <- image_read("D:/abc/dummy.PNG") %>%
image_resize("3000") %>%
image_convert(colorspace = 'gray') %>%
image_trim() %>%
image_ocr()
cat(test2)
write.table(test2, "D:/abc/Outputs/dummy.txt", sep="\t")

Проблема с версией 2 -> Вывод немного лучше, но все же есть много возможностей для улучшения.

Я пробовал несколько ресурсов, таких как source1 , source2 и чувствую, что это как-то связано с низким разрешением этой конкретной строки, но я не уверен, как это сделатьоб этом.Я могу быть совершенно неправ, поэтому не стесняйтесь исправлять.

Оптимистично, чтобы получить помощь от этого форума ![Sample image, original very similar to this but confidential, hence the sample] 3

1 Ответ

0 голосов
/ 20 сентября 2018

Имеет ли документ один и тот же формат каждый раз, или он меняет ?

Если бы он был таким же, вы можете просто обрезать место, в котором вы боретесьс, затем измените размер понемногу при использовании морфологических операций, таких как открытие.Это означает, что каждый раз, когда вы увеличиваете изображение, и между вашими буквами появляются нежелательные белые пиксели, он снова заполняет их черными пикселями.

http://www.fmwconcepts.com/imagemagick/morphology/index.php

Редактировать: Добавленоновые комментарии.

...