Я использую HTML Parser для получения ссылок с веб-страницы. Мне нужно сохранить URL-адрес, текст ссылки и URL-адрес родительской страницы, содержащей ссылку. Мне удалось получить URL ссылки, а также родительский URL.
Мне все еще нужно, чтобы получить текст ссылки.
<a href="url">link text</a>
К сожалению, мне сложно разобраться, любая помощь будет принята с благодарностью.
public static List<LinkContainer> findUrls(String resource) {
String[] tagNames = {"A", "AREA"};
List<LinkContainer> urls = new ArrayList<LinkContainer>();
Tag tag;
String url;
String sourceUrl;
try {
for (String tagName : tagNames) {
Parser parser = new Parser(resource);
NodeList nodes = parser.parse(new TagNameFilter(tagName));
NodeIterator i = nodes.elements();
while (i.hasMoreNodes()) {
tag = (Tag) i.nextNode();
url = tag.getAttribute("href");
sourceUrl = tag.getPage().getUrl();
if (RegexUtil.verifyUrl(url)) {
urls.add(new LinkContainer(url, null, sourceUrl));
}
}
}
} catch (ParserException pe) {
pe.printStackTrace();
}
return urls;
}