Это мой опыт.
Нам также пришлось разбирать текстовые документы, но сложное текстовое содержание мешало нам. У нас был многофункциональный текстовый редактор, в котором он позволял передавать содержимое из слова в него, а затем мы отправляли этот контент на сервер для анализа его с помощью jsoup.
Это может не решить твою проблему, но только мои 2 цента ..