Редактировать (2)
Если вы ищете надежное решение (или вам может потребоваться расширение для анализа большего количества HTML), то посмотрите один из других ответов здесь.Если вы просто хотите быстро и грязно, одноразовое решение, которое вы могли бы рассмотреть регулярное выражение.
Если я вас правильно понимаю, вы хотите извлечь значения href
для всех тегов <a>
вHTML, который вы извлекаете.
Вы можете использовать регулярные выражения .Что-то вроде
String regex = "<a\s.*href=['\"](.*?)['\"].*?>";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(text);
while (m.find())
{
String urlStr = m.group();
}
Edit (1)
Исправлено регулярное выражение - нам нужны неохотные квантификаторы, в противном случае мы получим все!