Мне нужно извлечь все теги и слова (в хронологическом порядке) из файла HTML. Вот пример файла:
один два три
На выходе я хочу получить массив или список, который выглядит следующим образом:
{"", "one", "two", "thre", ""}
Я знаю, что есть такие инструменты, как jTidy или Apache Tina, но эти инструменты предназначены для извлечения только текста (или только тегов) из документа.
Что мне делать?