Как удалить оверлеи из PDF-файла с помощью PDFBox? - PullRequest
0 голосов
/ 25 апреля 2018

Я использую Apache Tika 1.17 для извлечения контента из файлов PDF.На странице в PDF есть небольшое наложение изображений, из-за которого Tika не может извлечь какой-либо контент с этой страницы, но для остальных страниц она работает нормально.Можно ли удалить оверлей со страницы PDF с помощью PDFBox перед его отправкой в ​​Tika?

В качестве обходного пути я преобразовал PDF в PNG, а Tika использует TesseractOCR для извлечения содержимого.Но я теряю некоторый контент и текстовый формат таким образом.

...