Я конвертирую pdf файлы в текстовые данные, используя Tesseract и pdf_convert для извлечения информации, но после pdf_convert мне нужно затемнить и изменить размер данных, чтобы получить информацию. Я использую следующий код:
pngfile <- pdftools::pdf_convert('C:/Users/tmpxk9/Desktop/Sunil_TS/Intern/IRD_1/XXXX.pdf', dpi = 600)
input <- magick::image_read("pngfile")
text <- input %>%
magick::image_resize("2000x") %>%
magick::image_convert(type = 'Grayscale') %>%
magick::image_trim(fuzz = 40) %>%
magick::image_write(format = 'png', density = '300x300') %>%
tesseract::ocr()
cat(text)
Но image_read не читает созданный мной pngfile, но если я дам какой-нибудь отдельный файл с .png, он будет работать.
Примечание: файл PDF имеет 8 страниц, и мне нужно затемнить их все для извлечения информации.
Подскажите, пожалуйста, как мне поступить здесь?