Есть ли способ использовать по-разному функцию extract_table в R? - PullRequest
0 голосов
/ 22 апреля 2020

оригинальные файлы pdf

Я пытаюсь использовать extract_tables в пакете tabulizer.

library(tabulizer)
setwd("directory")
pdf_file <- "filenames.pdf"
cle <- extract_tables(pdf_file, pages=47 ,method="stream", encoding="UTF-8")

то, что мне нужно было использовать функцию extract_table, это только этот код.

Однако существует серьезная проблема. Он объединяет некоторые столбцы автоматически capture pdf table capture R outcome

Вы можете понять ситуацию, когда увидите два изображения. Столбцы 6 и 7 в pdf таблицы объединены.

not

0.9000 | -

0,6450 | -

0,7470 | -

два столбца объединены как

0,9000-

0,6450-

0,7470-

Поэтому я хочу найти метод сделать не создавать таблицы, подобные этой, что также является общим методом.

Поэтому я попытался добавить еще один компонент в функцию, подобную этой.

library(pdftools)
library(tabulizer)
files <- list.files(pattern = "pdf$")

opinions <- lapply(files, pdf_text)

cle <- extract_tables(opinions[[2]][47],method="stream", encoding="UTF-8")

*!Error in normalizePath(path.expand(path), winslash, mustWork) :*

Поэтому, пожалуйста, оставьте любое решение, если вы знаете, что мне с этим делать. спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...