Я много читал об извлечениях PDF и библиотеках (например, iText), но я просто не нашел решения для извлечения изображений и текста (с координатами) из PDF.
Задача состоит в том, чтобы сканироватьPDF с каталогом продукции и извлечением каждого изображения.Рядом с каждым изображением напечатан код изображения , а также список кодов продуктов для продуктов, показанных на изображении.
Я знаю, что нетспособ извлечения структурированной информации из PDF, подобный этому, но с координатами всех графических и текстовых объектов, я мог бы написать код, чтобы идентифицировать связанный текст по его расстоянию от изображения.Затем я мог бы разделить текст с помощью RegExp и выяснить, что такое код продукта , что такое код изображения и т. Д.
Не могли бы вы порекомендовать хорошее и работающее решение?для задания?