Как разобрать HTML-заголовок - PullRequest
0 голосов
/ 23 сентября 2011

У меня есть этот HTML, который я анализирую.

<div id="articleHeader">
<h1 class="headline">Assassin's Creed Revelations: The Three Heroes</h1>
<h2 class="subheadline">Exclusive videos and art spanning three eras of assassins.</h2>
<h2 class="publish-date"><script>showUSloc=(checkLocale('uk')||checkLocale('au'));document.writeln(showUSloc ? '<strong>US, </strong>' : '');</script>

<span class="us_details">September 22, 2011</span>

Что я хочу сделать, это разобрать подзаголовок «заголовок» и опубликовать дату для всех строк

Ответы [ 2 ]

2 голосов
/ 23 сентября 2011

Просто используйте соответствующие селекторы CSS , чтобы получить их.

Document document = Jsoup.connect(url).get();
String headline = document.select("#articleHeader .headline").text();
String subheadline = document.select("#articleHeader .subheadline").text();
String us_details = document.select("#articleHeader .us_details").text();
// ...

Или немного эффективнее:

Document document = Jsoup.connect(url).get();
Element articleHeader = document.select("#articleHeader").first();
String headline = articleHeader.select(".headline").text();
String subheadline = articleHeader.select(".subheadline").text();
String us_details = articleHeader.select(".us_details").text();
// ...
0 голосов
/ 23 сентября 2011

В Android встроен SAX-парсер . Вы также можете использовать другие стандартные XML-парсеры.

Но я думаю, что если ваш HTML достаточно прост, вы можете использовать RegEx для извлечения строки.

...