Question

Привет! Я ищу простой URL и экстрактор заголовков из HTML-файлов на Java. Я пытаюсь проанализировать bookmarks.html (IE, Firefox) и т. Д. И добавить заголовок и URL в БД. Мне нужно сделать это в Java (сторонние библиотеки не допускаются), поэтому, вероятно, я должен использовать sax / dom / regex.

Jherico · Answer 1 · 01 сентября 2009

Вы можете загрузить файл в документ DOM и затем использовать выражение XPath, чтобы найти все экземпляры тега. Извлечение атрибута HREF и содержимого тега должно делать то, что вы хотите. XPath, вероятно, будет таким простым, как '//A'.

Есть ли простая программа Java, которая может извлечь URL и заголовок HTML-файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли простая программа Java, которая может извлечь URL и заголовок HTML-файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов