PDF соскоб с использованием R - PullRequest
10 голосов
/ 27 октября 2011

Я успешно использовал пакет XML для извлечения таблиц HTML, но хочу расширить его до PDF. Из предыдущих вопросов не видно, что существует простое R-решение, но интересно, были ли какие-либо недавние разработки

Если это не так, есть ли в Python какой-то способ (в котором я начинающий), чтобы получить и манипулировать PDF, чтобы я мог закончить работу с пакетом R XML

Ответы [ 4 ]

10 голосов
/ 27 октября 2011

Извлечение текста из PDF-файлов - сложная задача, и почти всегда она требует особого внимания.

Я бы начал с инструментов командной строки, таких как pdftotext, и посмотрю, что они выплюнут. Проблема в том, что PDF-файлы могут хранить текст в любом порядке, могут использовать неуклюжие кодировки шрифтов и могут делать такие вещи, как использование лигатурных символов (соединенные «ff» и «ij», которые вы видите в правильном наборе текста), чтобы бросить вас.

pdftotext устанавливается в любой системе Linux ...

5 голосов
/ 27 октября 2011

Возможно, вы захотите проверить пакет text mining tm.Я помню, что они реализовали так называемых читателей, и был также один для PDF.

4 голосов
/ 27 октября 2011

AFAIK Нет простого способа превратить таблицы PDF в нечто полезное для анализа данных. Вы можете использовать утилиту File to Text Data Science Toolkit (интерфейс R через пакет RDSTK ), а затем проанализировать полученный текст. Имейте в виду: разбор часто нетривиален.


РЕДАКТИРОВАТЬ: на discerning.com есть полезное обсуждение конвертации PDF-файлов в XML . Короткий ответ: вам, вероятно, потребуется купить коммерческий инструмент.

1 голос
/ 02 мая 2016

Сердце приложения tabula , которое может извлекать таблицы из документов PDF, доступно в виде простого Java-приложения командной строки, tabula-extractor .

Эта Javaприложение было упаковано в R пакетом tabulizer .Передайте ему путь к файлу PDF, и он попытается извлечь для вас таблицы данных и вернуть их в виде данных.

Например, см. Когда документы становятся базами данных - Оболочка Tabulizer R для Tabula PDF Tableэкстрактор .

...