Чтение PDF-файлов с помощью OCR, Imagemagick в R- Ошибка «конвертировать: невозможно открыть изображение« * .ppm »» - PullRequest
0 голосов
/ 30 января 2019

Я начал работать над своим собственным проектом, где нам нужно извлечь данные из PDF-файлов в CSV.Поэтому мы попытались извлечь данные, используя методы «tm» и «pdftools».Но это не удалось, поскольку данные либо зашифрованы, либо написаны на местном языке, таком как хинди, бенгали или тамильский.

Источник данных: -

Английский PDF - http://ceodelhi.gov.in/ConstituentyDetailENG1.aspx?num=yww4Q9JSiKPyyVZ89sYMeA==&ii=e

Хинди PDF - http://ceo.bihar.gov.in/pdfsearch/draftroll.aspx

Поэтому мы подумали об использовании OCR для чтенияДанные с использованием следующего метода.https://gist.github.com/benmarwick/11333467

Я проследил за процессом, но застрял из-за следующей ошибки. Кажется, это ошибка imagemagick.Но не может найти правильное решение.

Код:

lapply(myfiles, function(i){
  # convert pdf to ppm (an image format), just pages 1-10 of the PDF
  # but you can change that easily, just remove or edit the 
  # -f 1 -l 10 bit in the line below
  shell(shQuote(paste0("pdftoppm ", i, " -f 1 -l 10 -r 600 ocrbook")))
  # convert ppm to tif ready for tesseract
  shell(shQuote(paste0("convert *.ppm ", i, ".tif")))
  # convert tif to text file
  shell(shQuote(paste0("tesseract ", i, ".tif ", i, " -l eng")))
  # delete tif file
  file.remove(paste0(i, ".tif" ))
})

Сообщение об ошибке:

convert: unable to open image '*.ppm': Invalid argument @ error/blob.c/OpenBlob/3485

Эти данные помогут на предстоящих всеобщих выборах в Индии в 2019 году

...