оригинальные файлы pdf
Я пытаюсь использовать extract_tables в пакете tabulizer.
library(tabulizer)
setwd("directory")
pdf_file <- "filenames.pdf"
cle <- extract_tables(pdf_file, pages=47 ,method="stream", encoding="UTF-8")
то, что мне нужно было использовать функцию extract_table, это только этот код.
Однако существует серьезная проблема. Он объединяет некоторые столбцы автоматически
![capture R outcome](https://i.stack.imgur.com/LjydP.jpg)
Вы можете понять ситуацию, когда увидите два изображения. Столбцы 6 и 7 в pdf таблицы объединены.
not
0.9000 | -
0,6450 | -
0,7470 | -
два столбца объединены как
0,9000-
0,6450-
0,7470-
Поэтому я хочу найти метод сделать не создавать таблицы, подобные этой, что также является общим методом.
Поэтому я попытался добавить еще один компонент в функцию, подобную этой.
library(pdftools)
library(tabulizer)
files <- list.files(pattern = "pdf$")
opinions <- lapply(files, pdf_text)
cle <- extract_tables(opinions[[2]][47],method="stream", encoding="UTF-8")
*!Error in normalizePath(path.expand(path), winslash, mustWork) :*
Поэтому, пожалуйста, оставьте любое решение, если вы знаете, что мне с этим делать. спасибо.