Имея опыт работы с R на уровне R и попросив написать коды для преобразования текста из изображений в текстовый файл, я борюсь с пакетами Tesseract и Magick.
Я, к сожалению, не смогу загрузить исходный документ, так как он является конфиденциальным, но я старался изо всех сил скопировать его в фиктивное изображение, которое прилагается.Оригинал структурирован аналогично приложенному примеру.
Документ содержит строку очень мелкими шрифтами .Код, который я запускаю, правильно читает большинство шрифтов, но не читает шрифты, которые намного меньше по размеру (примерно 6-6,5 размера шрифта или меньше в MS Word.)
Этоогромная проблема, потому что самая важная часть информации, заключающаяся в меньших шрифтах и неспособности ее прочитать, делает практически бесполезным весь процесс преобразования
Я следовал 2 различным версиямкод и оба они поставлены с их на множество задач: -
Версия 1 ->
text5 <- ocr("D:/abc/dummy.PNG")
cat(text5)
write.table(text5, "D:/abc/Outputs/dummy.txt", sep="\t")
Проблема с версией 1 -> Вывод генерируется за несколько секунд, все почти идеально, , но текст ввода мелкими шрифтами совсем не приемлем.
Версия 2 -->
test2 <- image_read("D:/abc/dummy.PNG") %>%
image_resize("3000") %>%
image_convert(colorspace = 'gray') %>%
image_trim() %>%
image_ocr()
cat(test2)
write.table(test2, "D:/abc/Outputs/dummy.txt", sep="\t")
Проблема с версией 2 -> Вывод немного лучше, но все же есть много возможностей для улучшения.
Я пробовал несколько ресурсов, таких как source1 , source2 и чувствую, что это как-то связано с низким разрешением этой конкретной строки, но я не уверен, как это сделатьоб этом.Я могу быть совершенно неправ, поэтому не стесняйтесь исправлять.
Оптимистично, чтобы получить помощь от этого форума ] 3