Разбор слов и тегов из HTML в Java - PullRequest
0 голосов
/ 16 февраля 2012

Мне нужно извлечь все теги и слова (в хронологическом порядке) из файла HTML. Вот пример файла: один два три На выходе я хочу получить массив или список, который выглядит следующим образом: {"", "one", "two", "thre", ""} Я знаю, что есть такие инструменты, как jTidy или Apache Tina, но эти инструменты предназначены для извлечения только текста (или только тегов) из документа. Что мне делать?

1 Ответ

1 голос
/ 16 февраля 2012

Используйте для этого библиотеку JSoup. Это делает разбор HTML в Java невероятно простым.

...