Извлечение гиперссылок Apache POI HWPF - PullRequest
1 голос
/ 01 декабря 2011

HYPERLINK "target" label

Как извлечь гиперссылки из документа HWPF?Я могу получить абзацы из файла doc и извлечь при необходимости правильный стиль, то есть полужирный, курсив и т. Д. Но как мне определить и извлечь гиперссылки из абзаца?

1 Ответ

0 голосов
/ 01 декабря 2011

Формат .doc не хранит гиперссылки самым простым способом, как вы заметили ...

Гиперссылка будет представлять собой один CharacterRun со специальными маркерами на нем.Как только вы обнаружили это, просто разделите текст на основе кавычек.

Есть хороший пример того, как сделать это в Apache Tika, посмотрите на handleSpecialCharacterRuns метод WordExtractor чтобы увидеть это сделано.

...