Предположим, у меня есть PDF-файл, который содержит счет-фактуру.Итак, это изображение в PDF-файле.Теперь, если я хочу извлечь ключевое слово «итого», как я могу это сделать?
До сих пор я придумал следующий код:
curl::curl_download("https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf", "wordpress-pdf-invoice-plugin-sample.pdf")
orig <- pdftools::pdf_text("wordpress-pdf-invoice-plugin-sample.pdf")
# Render pdf to png image
img_file <- pdftools::pdf_convert("wordpress-pdf-invoice-plugin-sample.pdf", format = 'tiff', pages = 1, dpi = 400)
# Extract text from png image
text <- ocr(img_file)
unlink(img_file)
cat(text)
Приведенный выше код помогает извлечь текст из изображения, однако он исключает текст, представленный в табличной форме.,Кроме того, если я хочу просто извлечь «Номер счета-фактуры» и «Сумма к оплате 93,50 долл. США», как это достигается с помощью R?Я был бы очень благодарен, если бы кто-то мог помочь мне в этой проблеме.