Для части XPath (jsoup
не поддерживает его, поэтому, возможно, вы можете попробовать с xsoup
):
Некоторые селекторы для извлечения деталей из рекламы, в том числе с желтым фоном который остается неизменным для каждой страницы. (заголовок статьи, описание, продавец, адрес, цена, состояние товара):
//font[@style]/b
//b[.="Seller:"]/preceding-sibling::text()[normalize-space()]
//b[.="Seller:"]/following-sibling::a
//b[.="Seller:"]/following-sibling::font
//b[starts-with(.,"Rs.")]
//b[starts-with(.,"Rs.")]/following-sibling::font
Количество элементов для каждой детали: 21
Некоторые селекторы для извлечения деталей из объявлений , за исключением страницы с желтым фоном, которая остается неизменной для каждой страницы. (название статьи, описание, продавец, адрес, цена, состояние товара):
//font[@style][not(ancestor::table[@id])]/b
//b[.="Seller:"][not(ancestor::table[@id])]/preceding-sibling::text()[normalize-space()]
//b[.="Seller:"][not(ancestor::table[@id])]/following-sibling::a
//b[.="Seller:"][not(ancestor::table[@id])]/following-sibling::font
//b[not(ancestor::table[@id])][starts-with(.,"Rs.")]
//b[not(ancestor::table[@id])][starts-with(.,"Rs.")]/following-sibling::font
Количество элементов для каждой детали: 20
Боковое примечание: будьте осторожны с состоянием товара. В некоторых объявлениях это поле отсутствует. Итак, количество элементов могло быть меньше 20 или 21.