Question

Мне нужно извлечь все теги и слова (в хронологическом порядке) из файла HTML. Вот пример файла: один два три На выходе я хочу получить массив или список, который выглядит следующим образом: {"", "one", "two", "thre", ""} Я знаю, что есть такие инструменты, как jTidy или Apache Tina, но эти инструменты предназначены для извлечения только текста (или только тегов) из документа. Что мне делать?

Mike Thomsen · Answer 1 · 16 февраля 2012

Используйте для этого библиотеку JSoup. Это делает разбор HTML в Java невероятно простым.

Разбор слов и тегов из HTML в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор слов и тегов из HTML в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы