pdf_ocr_text () вылетает R - PullRequest
       81

pdf_ocr_text () вылетает R

0 голосов
/ 24 марта 2020

Я использую pdftools и tesseract, чтобы применить OCR к некоторым отчетам в формате PDF, доступным в Интернете. Например, на странице 2 этого отчета необходимо использовать OCR, чтобы его можно было использовать. Однако, когда я пытаюсь использовать pdf_ocr_text() в своем URL, я получаю сообщение о том, что сеанс R был прерван.

В частности, это то, что я запускаю:
pdf_text_ocr('https://ciwqs.waterboards.ca.gov/ciwqs/readOnly/PublicAttachmentRetriever?parentID=360578&attachmentID=504624&attType=3', pages = 2)

...