Извлечение данных из вложенных таблиц в PDF - PullRequest
3 голосов
/ 20 августа 2010
  1. У меня есть несколько PDF-файлов, которые были созданы из файлов Word или Excel.

  2. Мне нужно получить информацию в таблицах.

  3. Текст в документе не является изображением, поэтому я могу извлечь текст с помощью таких инструментов, как pdfbox.

  4. Когда у меня есть текст, у меня нет возможности узнать, к каким ячейкам таблицы он принадлежит, потому что я не знаю, где находятся границы таблицы.

  5. Iv'e попробовал несколько настольных инструментов, таких как abby или solid pdf converter, и они могут конвертировать файлы в красивые текстовые документы, но это не соответствует моим потребностям, так как я хочу это делать программно в C #.

  6. В некоторых таблицах есть вложенные таблицы, которые, как мне кажется, делают это немного более сложным.

Я ценю вашу помощь

1 Ответ

1 голос
/ 20 августа 2010

Трудность здесь вызвана тем, что текст в PDF не содержится ни в одной таблице.Может показаться, что это так, но под поверхностью это не так.

Так что есть несколько вариантов, о которых я могу подумать.Но ни один из них не будет настолько удовлетворительным, как вам бы того хотелось.

  1. Есть некоторые компании, которые предлагают SDK для преобразования PDF в Excel / Word.Investintech и Iceni - пара примеров.Но эти решения не являются бесплатными.
  2. Если вы знаете точный макет файлов PDF, из которого нужно извлечь данные таблицы, тогда вы можете использовать любой SDK, который позволяет извлекать текст из PDF, а также сообщаетВы точные координаты извлеченного текста.Используя этот метод, вам нужно заранее знать, где будет находиться текст, чтобы вы могли извлечь текст из определенной области на странице.Очевидно, что это не сработает, если вам потребуется обработать какой-либо случайный документ.

Это сложная задача, но, надеюсь, это даст вам отправную точку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...