Извлечение ключевого слова из изображения с помощью R - PullRequest
0 голосов
/ 13 мая 2019

Предположим, у меня есть PDF-файл, который содержит счет-фактуру.Итак, это изображение в PDF-файле.Теперь, если я хочу извлечь ключевое слово «итого», как я могу это сделать?

До сих пор я придумал следующий код:

curl::curl_download("https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf", "wordpress-pdf-invoice-plugin-sample.pdf")
orig <- pdftools::pdf_text("wordpress-pdf-invoice-plugin-sample.pdf")
# Render pdf to png image
img_file <- pdftools::pdf_convert("wordpress-pdf-invoice-plugin-sample.pdf", format = 'tiff', pages = 1, dpi = 400)
# Extract text from png image
text <- ocr(img_file)
unlink(img_file)
cat(text)

Приведенный выше код помогает извлечь текст из изображения, однако он исключает текст, представленный в табличной форме.,Кроме того, если я хочу просто извлечь «Номер счета-фактуры» и «Сумма к оплате 93,50 долл. США», как это достигается с помощью R?Я был бы очень благодарен, если бы кто-то мог помочь мне в этой проблеме.

1 Ответ

0 голосов
/ 14 мая 2019

Использование tabulizer упаковка

library(tabulizer)
library(dplyr)
library(data.table)

out <- extract_tables( "https://slicedinvoices.com/pdf/wordpress-pdf-invoice-plugin-sample.pdf")

out = as.data.table(out)
out %>% filter(V1=='Invoice Number' | V1=='Total Due')

              V1       V2
1 Invoice Number INV-3337
2      Total Due   $93.50
...