Извлечение изображений и слов с координатами и размерами из PDF - PullRequest
8 голосов
/ 23 ноября 2011

Я много читал об извлечениях PDF и библиотеках (например, iText), но я просто не нашел решения для извлечения изображений и текста (с координатами) из PDF.

Задача состоит в том, чтобы сканироватьPDF с каталогом продукции и извлечением каждого изображения.Рядом с каждым изображением напечатан код изображения , а также список кодов продуктов для продуктов, показанных на изображении.

Я знаю, что нетспособ извлечения структурированной информации из PDF, подобный этому, но с координатами всех графических и текстовых объектов, я мог бы написать код, чтобы идентифицировать связанный текст по его расстоянию от изображения.Затем я мог бы разделить текст с помощью RegExp и выяснить, что такое код продукта , что такое код изображения и т. Д.

Не могли бы вы порекомендовать хорошее и работающее решение?для задания?

Ответы [ 3 ]

3 голосов
/ 23 января 2015

Использовать XPDF (http://www.foolabs.com/xpdf/)

Может извлекать все символы в PDF с координатами (pdftotext -bbox [sourcefile] [outputfile]), а также все изображения и SVG в PDF.

Он имеет открытый исходный код (GPLv2) и также поддерживает множество дополнительных функций извлечения.

0 голосов
/ 24 ноября 2011

Если вам нужна коммерческая библиотека, вы можете попробовать Amyuni PDF Creator .Net или Amyuni PDF Creator ActiveX .Вы можете использовать метод IacDocument.GetObjectsInRectangle , чтобы получить все интересующие вас «графические объекты», а затем использовать атрибут ObjectType для отделения изображений от текста.Библиотека уже предоставляет алгоритм для объединения близкого текста.Из документации:

IacDocument.GetObjectsInRectangle Method

The GetObjectsInRectangle method gets all the objects that are in the specified rectangle.

Применяется обычный отказ от ответственности.

0 голосов
/ 23 ноября 2011

Несколько библиотек Java могут сделать это. Вы смотрели на JPedal или PdfBox?

...