Как очистить загруженный файл PDF с помощью R - PullRequest
0 голосов
/ 07 июня 2018

Недавно я начал изучать (и вообще программировать) свою стажировку и натолкнулся на анализ PDF.Каждый раз, когда я пытаюсь прочитать отсканированный PDF с помощью R, я не могу заставить его работать.Я пытался использовать функцию file.choose() безрезультатно.Нужно ли мне менять мой каталог или как я могу получить pdf из моих файлов в R?Код выглядит примерно так:

    > library(pdftools)
    > text=pdf_text("C:/Users/myname/Documents/renewalscan.pdf")
    > text
    [1] ""

Кроме того, использование pdftables приводит меня сюда:

    > library(pdftables)
    > convert_pdf("C:/Users/myname/Documents/renewalscan.pdf","my.csv")
    Error in get_content(input_file, format, api_key) : 
    Bad Request (HTTP 400).

Ответы [ 2 ]

0 голосов
/ 29 марта 2019

Чтобы использовать пакет PDFTables R, вам нужно выполнить следующую команду:

convert_pdf('test/index.pdf', output_file = NULL, format = "xlsx-single", message = TRUE, api_key = "insert_API_key")
0 голосов
/ 07 июня 2018

Вам следует использовать пакеты pdftools и pdftables.

Если вы пытаетесь читать текст внутри pdf, используйте функцию pdf_text().Внутри идет путь (на вашем компьютере или в Интернете) к PDF.Например,

tt = pdf_text("C:/Users/Smith/Documents/my_file.pdf")

Было бы неплохо, если бы вы были более конкретны, а также привели бы нам воспроизводимый пример.

...