Как получить все детали объекта с помощью библиотеки Jsoup и сохранить их в bean-компоненте? - PullRequest
0 голосов
/ 19 июня 2020

Здесь я просматриваю сайт https://hamrobazaar.com/c6-apparels-and-accessories, и я хочу сохранить все детали подкатегорий в bean-компоненте и распечатать их. Если бы я получил подробную информацию об объекте, это тоже очень помогло бы.

Пример:

Image from the same site i.e https://hamrobazaar.com/c6-apparels-and-accessories

Я хочу очистить имя маски как Kn95 Mask (сертифицировано fda), описание как «Мы ​​продавец» ..., имя продавца как «Биродх Покхрел», адрес как Damak-5, Damak, цена как 210, date и введите как Brand New

Если вы хорошо разбираетесь в Jsoup и Xpath. Пожалуйста, помогите мне получить это. Спасибо

1 Ответ

0 голосов
/ 19 июня 2020

Для части XPath (jsoup не поддерживает его, поэтому, возможно, вы можете попробовать с xsoup):

Некоторые селекторы для извлечения деталей из рекламы, в том числе с желтым фоном который остается неизменным для каждой страницы. (заголовок статьи, описание, продавец, адрес, цена, состояние товара):

//font[@style]/b
//b[.="Seller:"]/preceding-sibling::text()[normalize-space()]
//b[.="Seller:"]/following-sibling::a
//b[.="Seller:"]/following-sibling::font
//b[starts-with(.,"Rs.")]
//b[starts-with(.,"Rs.")]/following-sibling::font

Количество элементов для каждой детали: 21

Некоторые селекторы для извлечения деталей из объявлений , за исключением страницы с желтым фоном, которая остается неизменной для каждой страницы. (название статьи, описание, продавец, адрес, цена, состояние товара):

//font[@style][not(ancestor::table[@id])]/b
//b[.="Seller:"][not(ancestor::table[@id])]/preceding-sibling::text()[normalize-space()]
//b[.="Seller:"][not(ancestor::table[@id])]/following-sibling::a
//b[.="Seller:"][not(ancestor::table[@id])]/following-sibling::font
//b[not(ancestor::table[@id])][starts-with(.,"Rs.")]
//b[not(ancestor::table[@id])][starts-with(.,"Rs.")]/following-sibling::font

Количество элементов для каждой детали: 20

Боковое примечание: будьте осторожны с состоянием товара. В некоторых объявлениях это поле отсутствует. Итак, количество элементов могло быть меньше 20 или 21.

...