Как собрать информацию из PDF-файлов? - PullRequest
1 голос
/ 17 декабря 2011

Я использую Mozenda (Mozenda.com) для очистки онлайновой базы данных, но некоторые данные находятся в файлах PDF.Мозенда не поддерживает очистку этих файлов, поэтому я ищу другое решение.

Есть два вопроса ...

  1. Какой синтаксис XPath подходит длявыбрать URL из ссылки?Непонятно, как это сделать с помощью Mozenda, и URL-адреса PDF необходимы для реализации стороннего решения.

  2. Что является хорошим инструментом для преобразования большого количества PDF-файлов онлайн в html,или еще лучше - поцарапать их?

Любые полезные предложения, безусловно, приветствуются.Я с удовольствием уточню ... просто спросите.

Ответы [ 2 ]

1 голос
/ 17 июля 2014

Я понимаю, что это поздний ответ, но Мозенда добавил возможность конвертировать PDF-файлы в HTML и вычеркивать их. Это довольно легко.

https://www.mozenda.com/faqs

0 голосов
/ 15 февраля 2012

используя саму mozenda, вы можете создать xpath. создать любое действие> уточнить действие> положить. в Xpath и возьмите данные, что вы хотите от CaptureDefination.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...