Мы используем iTextSharp с приложением C # WinForms для анализа PDF-файла.Используя iTextSharp, я могу легко извлечь текстовые данные из файла PDF.Предположим, файл PDF содержит изображение, окруженное двумя строками текста.В этом случае я не смог извлечь информацию об изображении.
Мое требование:
- Получить структурные элементы файла PDF
- Обработать, является ли каждыйтипа text, image, table или другого
Например, структурные элементы похожи на следующие:
text :paragraph1
text :paragraph2
Image:Image
text :paragraph3
Table:table info
text :Paragraph4
Если я смогу получить информацию в таком формате, как этот,Я легко могу понять информацию о тексте, изображении, таблице, верхнем или нижнем колонтитуле.
Итак, возможно ли получить такую информацию, используя iTextSharp?Если да, пожалуйста, просветите меня об этом.В противном случае, не могли бы вы предложить другие инструменты, способные удовлетворить это требование?
Спасибо всем,
Сараванан