Извлечение данных из файлов PDF в R и интеллектуальный анализ текста в R для обработки изображений - PullRequest
1 голос
/ 24 февраля 2020

Я конвертирую pdf файлы в текстовые данные, используя Tesseract и pdf_convert для извлечения информации, но после pdf_convert мне нужно затемнить и изменить размер данных, чтобы получить информацию. Я использую следующий код:

pngfile <- pdftools::pdf_convert('C:/Users/tmpxk9/Desktop/Sunil_TS/Intern/IRD_1/XXXX.pdf', dpi = 600)



input <- magick::image_read("pngfile")

text <- input %>%
  magick::image_resize("2000x") %>%
  magick::image_convert(type = 'Grayscale') %>%
  magick::image_trim(fuzz = 40) %>%
  magick::image_write(format = 'png', density = '300x300') %>%
  tesseract::ocr() 

cat(text)

Но image_read не читает созданный мной pngfile, но если я дам какой-нибудь отдельный файл с .png, он будет работать.

Примечание: файл PDF имеет 8 страниц, и мне нужно затемнить их все для извлечения информации.

Подскажите, пожалуйста, как мне поступить здесь?

...