R tabulizer: Ошибки кодирования PDF (?) - PullRequest
0 голосов
/ 10 декабря 2018

Я пытаюсь проанализировать некоторые исторические данные о ценах на сырую нефть, используя табулизатор, и наталкиваюсь на то, что похоже на ошибки кодирования.Ниже приведен воспроизводимый пример с одним из файлов, которые я хочу очистить.

library(tidyverse)
library(tabulizer)
library(pdftools)
#example file
file <- "https://paalp.s3.amazonaws.com/plains/media/bulletins/paa/monthly/2000/December%202000.pdf"

#download file
#check file info - nothing on encoding per se
pdf_info(file)

pdf_info не возвращает ничего экстраординарного, за исключением того, что файл является относительно старым.Я пытался запустить их в виде таблиц или в виде текста, и я получаю различные типы ошибок, но текстовый вызов, кажется, показывает, где могут быть проблемы.

#attempt to parse table from page 1
pricing_tables<-extract_tables(file,page=1)

#grab as text
pricing_text<-extract_text("Files/test.pdf",page=1)

Когда я беру в качестве таблицы,первые столбцы цены не разделены, вставлены дополнительные десятичные дроби и т. д.

Data frame view

Когда я выбираю текст, я вижу символы кодировки, которые кажутсябросить часть этого для петли.

West Texas Intermediate - Area #1...................................................…......................................................…30.75 * 28 75 * 28 00 * 26.25 * 26.75 * 26.25 *\r\n

Пара других битов тестирования.Во-первых, я могу преобразовать PDF в растровое изображение, и содержимое передается приблизительно.Не уверен, что это вообще информативно.

# render into raw bitmap
bitmap <- pdf_render_page(file)
png::writePNG(bitmap, "test.png")

Далее, если я копирую из PDF-файла в Excel, воспроизводятся те же ошибки:

Excel test

И то же самое в Слове: Word test

Любые мысли или помощь приветствуются.

Андрей

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...