Размеры таблиц R tabulizer различаются для таблиц PDF одного и того же формата - PullRequest
0 голосов
/ 10 июня 2018

Я использую Tabulizer 0.2.2 extract_tables в следующем PDF-файле в R на Mac.

sales <- "<a href="http://www.greenwichct.org/upload/medialibrary/5cd/Residential-Sales-by-Address-10-10-to-10-15.pdf" rel="nofollow noreferrer">http://www.greenwichct.org/upload/medialibrary/5cd/Residential-Sales-by-Address-10-10-to-10-15.pdf"

test <- extract_tables (sales, pages = c(1:10), method = "решить") </p>

Я считаю, что таблицы на каждой странице одинаковы, но итоговый список матриц для первых десяти страниц, например, дает матрицы с 3 различными измерениями.иногда конкатенация, например, в тесте [[3]] со столбцами 1 и 2.

Я пытался установить область, указав методы. Я искал, как указать параметр столбца, но не могу ничего найтиконкретный. Даже прошел с extract_area (), но тот же результат. Те же проблемы с использованием приложения Tabula.

Любые мысли приветствуются.

...