Я использую Apache Tika 1.17 для извлечения контента из файлов PDF.На странице в PDF есть небольшое наложение изображений, из-за которого Tika не может извлечь какой-либо контент с этой страницы, но для остальных страниц она работает нормально.Можно ли удалить оверлей со страницы PDF с помощью PDFBox перед его отправкой в Tika?
В качестве обходного пути я преобразовал PDF в PNG, а Tika использует TesseractOCR для извлечения содержимого.Но я теряю некоторый контент и текстовый формат таким образом.