Извлечение информации в R с использованием Tesseract и OCR - PullRequest
0 голосов
/ 13 апреля 2020

Я должен извлечь информацию из документа PDF в R, я использую tesseract. Я новичок в OCR и тессеракте. из документа, когда я конвертирую его в pngfile, а затем конвертирую в текст, но информация становится очень беспорядочной, и слова не записываются в текст должным образом. Я использую следующий код:

pngfile <- pdftools::pdf_convert('C:/Users/Desktop/Repository/abc.pdf', dpi = 600)

text = paste((tesseract::ocr(pngfile)),collapse = "")

Sunil = strsplit(text,split = "\n")

В документах я не могу получить информацию должным образом. Мне нужен контактный номер, адрес электронной почты. Для страны риска мне нужно выбрать М. Кажется, мне нужно улучшить изображения тоже. Любые указатели / рекомендации будут очень благодарны

enter image description here

...