это класс Elements может решить эту проблему - PullRequest
1 голос
/ 26 ноября 2011

Я хочу получить html-содержимое с веб-сайта и я использую jsoup (Java с открытым исходным кодом), чтобы crwal веб-сайт и получить элементы с этим кодом:

 Document doc = Jsoup.connect("http://bj.58.com/shangdi/zufang/0/").get();  
        Elements hrefs = doc.select("*");
        Elements hrefs2 = hrefs.select("td:lt(4)");  
        System.out.println(hrefs2);

и я получаю результат:

<td class="tc"><b class="pri">2100</b></td>
<td class="tc">ABCD</td>
<td class="tc">today</td>

или я редактирую этот код (просто добавьте "text ()" в последней строке):

 Elements hrefs2 = hrefs.select("td:lt(4)");  
 System.out.println(hrefs2.text());

и я получаю результат:

 2100 ABCD today 

но я действительно хочу достичь, как этот результат:

   2100,ABCD,today 

- это любой способ добавить запятую в результат, чтобы можно было легко сохранить результат в базе данных с помощью файла CSV.

Ответы [ 2 ]

2 голосов
/ 26 ноября 2011

Вы можете получить итератор над результирующим Elements из hrefs.select, и в этот момент вы можете делать со списком все, что хотите, (т.е. форматировать его по своему желанию).

0 голосов
/ 22 мая 2012

Я использовал tds.append(",");, это добавляло запятую к каждому элементу данных, поэтому оно импортировалось отлично как разделитель запятой

...