HTMLUnit собирает все ссылки по имени класса - PullRequest
0 голосов
/ 18 февраля 2011

Я хотел бы очистить / собрать все ссылки на странице под определенным именем класса

например. HTML Сельское хозяйство (92)

<a href="http://www.specificurl/page.html" class="generate">Agriculture</a>

Я играл со следующими частями кода:

   List<?> links = page.getByXPath("//div[@class='generate']/@href");

   OR
 List<?> links = page.getAnchors();
    System.out.println(links);

Параметр getByXPath возвращает значение null, а другой параметр захватывает все якоря. Есть ли способ получить ссылки в список?

1 Ответ

0 голосов
/ 23 февраля 2011

Это ужасный XPath, но у меня были проблемы с его сужением.(Я могу посмотреть на лучший XPath, если это необходимо, но сейчас этот работает:

List<?> links = page.getByXPath("/html/body/div[2]/div[2]/table/tbody/tr/td/table/tbody/tr[7]/td/table/tbody/tr/td/div/table/tbody/tr[2]/td/div/table/tbody/tr/td/table/tbody/tr/td/ul/li/a/@href").asList()

Я не совсем уверен, почему он не позволил нам взять его под этим именем класса.

Дайте мне знать, как это работает для вас, когда у вас есть шанс

...