Question

Мне нужно проанализировать документ HTML, получить все URL и содержимое страницы и сохранить их в базе данных. Я не хочу использовать какую-либо библиотеку. Я могу идентифицировать теги ссылок, используя тег <a, но как мне извлечь весь контент или полезный текст из тега html?

Alex Chernyshev · Answer 1 · 09 февраля 2020

Вы можете попробовать это: https://docs.oracle.com/javase/8/docs/api/javax/swing/text/html/parser/Parser.html

Пример использования: Как извлечь информацию из HTML с помощью собственного анализатора Java?

как разобрать HTML без библиотеки в java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как разобрать HTML без библиотеки в java?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы