Разбор указанного текста со страницы с помощью jericho html parser - PullRequest
0 голосов
/ 23 марта 2012

У меня проблемы с получением указанного текста со страницы. Пример, который я использую: Сводная ведомость патента

Если вы зайдете на сайт, вы увидите, что есть «Всего: 82» (это количество попаданий по критерию SASA). Мне нужно получить этот номер. Я использую jericho html parser, но не могу найти для этого никакой функции.

Может ли кто-нибудь помочь мне в этом? Мне ДЕЙСТВИТЕЛЬНО нужно получить этот номер на странице.

Заранее спасибо -Sasa

1 Ответ

0 голосов
/ 04 февраля 2013

Если вы можете переключиться на Jsoup :

/* Connect to URL and parse it into a 'Document' */
Document doc = Jsoup.connect("http://assignments.uspto.gov/assignments/q?db=pat&qt=asne&reel=&frame=&pat=&pub=&asnr=&asnri=&asne=sasa&asnei=&asns=").get();

/* Select the required tag and print the value */
System.out.println(doc.select("p.t2").first().text());

Готово!

Выход:

Итого: 83 (значение изменено на веб-сайте)

Селектор пояснил:

doc.select("p.t2") // Select each 'p'-tag with 't2' attribute from document
   .first() // Get the first one (there are two on the website, but the first one is the required one)
   .text() // Get the text of this element

Документация:

...