Question

Я использую Apache Tika 1.17 для извлечения контента из файлов PDF.На странице в PDF есть небольшое наложение изображений, из-за которого Tika не может извлечь какой-либо контент с этой страницы, но для остальных страниц она работает нормально.Можно ли удалить оверлей со страницы PDF с помощью PDFBox перед его отправкой в Tika?

В качестве обходного пути я преобразовал PDF в PNG, а Tika использует TesseractOCR для извлечения содержимого.Но я теряю некоторый контент и текстовый формат таким образом.

Как удалить оверлеи из PDF-файла с помощью PDFBox?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как удалить оверлеи из PDF-файла с помощью PDFBox?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы