Я использую pdftools
и tesseract
, чтобы применить OCR к некоторым отчетам в формате PDF, доступным в Интернете. Например, на странице 2 этого отчета необходимо использовать OCR, чтобы его можно было использовать. Однако, когда я пытаюсь использовать pdf_ocr_text()
в своем URL, я получаю сообщение о том, что сеанс R был прерван.
В частности, это то, что я запускаю:
pdf_text_ocr('https://ciwqs.waterboards.ca.gov/ciwqs/readOnly/PublicAttachmentRetriever?parentID=360578&attachmentID=504624&attType=3', pages = 2)