Как обнаружить скрытый текст в формате PDF - PullRequest
1 голос
/ 24 января 2012

Мы извлекаем текст из PDF с помощью iText / PDFBox, но также извлекается дополнительный текст, невидимый в PDF.Есть ли какой-либо метод и / или инструменты, чтобы избавиться от этих скрытых текстов?

1 Ответ

1 голос
/ 24 января 2012

Существует множество различных способов добавления скрытого текста, включая

  1. Скрытый на скрытом / невидимом / заблокированном слое группы содержимого
  2. Белый цвет текста в OCG
  3. 100% прозрачный текст
  4. ???

Каждый PDF-файл может использовать свой метод, и для возможности его разделения вам может понадобиться узнать, как реализован скрытый текст.

Есть ли в iText возможность вернуть цвет текста?Если это так, вы можете попробовать игнорировать текстовые объекты белого цвета.

...