Как извлечь элементы списка с помощью XPath, не используя навигацию? - PullRequest
0 голосов
/ 06 апреля 2020

Я использую сторонний скребковый / сканирующий инструмент для извлечения данных со страниц из разных доменов.

Например: загрузка в топ-10 статей по рейтингу для ключевого слова 'x', а затем извлечение элементов каждой страницы с использованием некоторых функций x path.

Есть пара новых элементов, которые я хотел бы начать тянуть, но я не уверен, что наилучшим подходом было бы вернуть наиболее точные результаты.

Цели:

  1. Снять количество элементов ul, ol и li в наборе артикулов

  2. Снять обратно текст в каждом элементе списка, чтобы сравнить, как издатели пишут по ключевым темам

Проблема в том, что я не хочу возвращать элементы навигации / меню, которые содержат элементы списка. Я только хочу получить данные внутри тела каждой написанной статьи.

Самым простым способом может быть поиск тега H1 (поскольку у большинства сайтов есть только 1 и его основной заголовок статьи ..., а затем вытащить элементы списка, которые отображаются ПОСЛЕ тега h1. должен теоретически устранить что-либо в главном меню ... но я не уверен, как это сделать в XPath.

Любая идея о том, какой наилучший подход может быть для достижения sh этого?

...