Я должен извлечь информацию из документа PDF в R, я использую tesseract. Я новичок в OCR и тессеракте. из документа, когда я конвертирую его в pngfile, а затем конвертирую в текст, но информация становится очень беспорядочной, и слова не записываются в текст должным образом. Я использую следующий код:
pngfile <- pdftools::pdf_convert('C:/Users/Desktop/Repository/abc.pdf', dpi = 600)
text = paste((tesseract::ocr(pngfile)),collapse = "")
Sunil = strsplit(text,split = "\n")
В документах я не могу получить информацию должным образом. Мне нужен контактный номер, адрес электронной почты. Для страны риска мне нужно выбрать М. Кажется, мне нужно улучшить изображения тоже. Любые указатели / рекомендации будут очень благодарны