Есть ли простая программа Java, которая может извлечь URL и заголовок HTML-файлов - PullRequest
0 голосов
/ 01 сентября 2009

Привет! Я ищу простой URL и экстрактор заголовков из HTML-файлов на Java. Я пытаюсь проанализировать bookmarks.html (IE, Firefox) и т. Д. И добавить заголовок и URL в БД. Мне нужно сделать это в Java (сторонние библиотеки не допускаются), поэтому, вероятно, я должен использовать sax / dom / regex.

1 Ответ

0 голосов
/ 01 сентября 2009

Вы можете загрузить файл в документ DOM и затем использовать выражение XPath, чтобы найти все экземпляры тега. Извлечение атрибута HREF и содержимого тега должно делать то, что вы хотите. XPath, вероятно, будет таким простым, как '//A'.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...