Формат .doc не хранит гиперссылки самым простым способом, как вы заметили ...
Гиперссылка будет представлять собой один CharacterRun со специальными маркерами на нем.Как только вы обнаружили это, просто разделите текст на основе кавычек.
Есть хороший пример того, как сделать это в Apache Tika, посмотрите на handleSpecialCharacterRuns метод WordExtractor чтобы увидеть это сделано.