Извлечение данных с помощью JSoup - PullRequest
0 голосов
/ 25 февраля 2012

Я пытаюсь извлечь информацию о названии продукта из Google Shopping (http://www.google.co.uk/m/products?q=5010459007289, телефон на сайте).

Имя продукта всегда отображается в промежутке между классами "owb63p", например

"<span class="owb63p">Highland Spring Sports Bottle 750 Ml</span>"

Я новичок в JSoup, я могу связаться с URL и получить весь документ, но мне просто нужна помощь, чтобы настроить его так, чтобы я получал только ту часть информации, которая мне нужна.

Спасибо

Ответы [ 4 ]

1 голос
/ 27 февраля 2012

В JSoup это будет выглядеть так:

Document doc = Jsoup.connect("www.google.co.uk/m/products?q=5010459007289").get();
Element title = doc.select("span.owb63p").first();
    System.out.println(title.text());
0 голосов
/ 18 апреля 2012

Вы можете попробовать

doc.select("span").get(0).data();

или вы можете просто выполнить итерацию для нескольких тегов span ...

0 голосов
/ 25 февраля 2012

Похоже, Примеры JSoup имеет то, что вы ищете.

0 голосов
/ 25 февраля 2012

Мне не очень нравится JSoup, но с apache jericho он хотел бы:

            Source source=new Source(new URL(sourceUrlString));
    String content=source.getFirstElementByClass( "owb63p" ).getContent().toString();
...