Я пытаюсь проанализировать некоторые исторические данные о ценах на сырую нефть, используя табулизатор, и наталкиваюсь на то, что похоже на ошибки кодирования.Ниже приведен воспроизводимый пример с одним из файлов, которые я хочу очистить.
library(tidyverse)
library(tabulizer)
library(pdftools)
#example file
file <- "https://paalp.s3.amazonaws.com/plains/media/bulletins/paa/monthly/2000/December%202000.pdf"
#download file
#check file info - nothing on encoding per se
pdf_info(file)
pdf_info не возвращает ничего экстраординарного, за исключением того, что файл является относительно старым.Я пытался запустить их в виде таблиц или в виде текста, и я получаю различные типы ошибок, но текстовый вызов, кажется, показывает, где могут быть проблемы.
#attempt to parse table from page 1
pricing_tables<-extract_tables(file,page=1)
#grab as text
pricing_text<-extract_text("Files/test.pdf",page=1)
Когда я беру в качестве таблицы,первые столбцы цены не разделены, вставлены дополнительные десятичные дроби и т. д.
Когда я выбираю текст, я вижу символы кодировки, которые кажутсябросить часть этого для петли.
West Texas Intermediate - Area #1...................................................…......................................................…30.75 * 28 75 * 28 00 * 26.25 * 26.75 * 26.25 *\r\n
Пара других битов тестирования.Во-первых, я могу преобразовать PDF в растровое изображение, и содержимое передается приблизительно.Не уверен, что это вообще информативно.
# render into raw bitmap
bitmap <- pdf_render_page(file)
png::writePNG(bitmap, "test.png")
Далее, если я копирую из PDF-файла в Excel, воспроизводятся те же ошибки:
И то же самое в Слове:
Любые мысли или помощь приветствуются.
Андрей