Могу ли я извлечь таблицы из PDF с помощью Perl? - PullRequest
5 голосов
/ 15 октября 2010

Мне нужно извлечь табличные объекты из PDF-документов, желательно программно с использованием Perl. Я могу вырезать и вставлять в Excel, но после импорта данных в Excel потребуется совсем немного ручного редактирования.

Я провел некоторый поиск, но пока кажется, что большинство форумов предполагают, что большинство API очень примитивны.

Ответы [ 2 ]

2 голосов
/ 16 октября 2010

Лучший из известных мне модулей для работы с PDF-файлами в Perl - PDF :: API2 .Однако, не зная больше о манипуляции, вам нужно сделать все возможное, чтобы дать дальнейшие рекомендации.Другой возможностью является программирование с использованием встроенных в Excel функций VB, чтобы при копировании таблиц в электронную таблицу Excel запускался макрос, который выполнит ваше форматирование.

1 голос
/ 16 октября 2010

Я думаю, что лучшим модулем CPAN для этого, вероятно, будет CAM::PDF.

Однако я не использовал модуль, поэтому я не могу подтвердить, что он (легко) сделает то, что вам нужно, но это PDF manipulation library, и автор модулей действительно отвечает на вопросы о CAM::PDF здесь, на SO.

Также см. Этот предыдущий вопрос: Как извлечь текст из файла PDF на Perl?

/ I3az /

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...