Привет! Я ищу простой URL и экстрактор заголовков из HTML-файлов на Java. Я пытаюсь проанализировать bookmarks.html (IE, Firefox) и т. Д. И добавить заголовок и URL в БД. Мне нужно сделать это в Java (сторонние библиотеки не допускаются), поэтому, вероятно, я должен использовать sax / dom / regex.
Вы можете загрузить файл в документ DOM и затем использовать выражение XPath, чтобы найти все экземпляры тега. Извлечение атрибута HREF и содержимого тега должно делать то, что вы хотите. XPath, вероятно, будет таким простым, как '//A'.
'//A'