Извлечение ссылок из HTML - PullRequest
0 голосов
/ 20 марта 2012

Я пытаюсь извлечь ссылки из HTML.Я использую следующее регулярное выражение

href=\"([^\"]*)\"

, которое извлекает ненужные ссылки.Как я могу написать регулярное выражение для извлечения только ссылки с class = "l", как

<a href="http://users.elite.net/runner/jennifers/hello.htm" class="l">
<a href="http://www.hellodesign.com/" class="l">
<a href="http://www.ipl.org/div/hello/" class="l">

1 Ответ

2 голосов
/ 20 марта 2012

Анализ HTML с помощью регулярных выражений излишне усложнен. Regex - неподходящий инструмент для работы. Просто используйте обычный HTML-анализатор, например Jsoup . Позволяет выбирать элементы HTML обычными селекторами CSS .

Document document = Jsoup.parse(html);
Elements links = document.select("a.l"); // Select all <a class="l"> elements.

for (Element link : links) {
    System.out.println(link.absUrl("href"));
}
...