Я использую сторонний скребковый / сканирующий инструмент для извлечения данных со страниц из разных доменов.
Например: загрузка в топ-10 статей по рейтингу для ключевого слова 'x', а затем извлечение элементов каждой страницы с использованием некоторых функций x path.
Есть пара новых элементов, которые я хотел бы начать тянуть, но я не уверен, что наилучшим подходом было бы вернуть наиболее точные результаты.
Цели:
Снять количество элементов ul, ol и li в наборе артикулов
Снять обратно текст в каждом элементе списка, чтобы сравнить, как издатели пишут по ключевым темам
Проблема в том, что я не хочу возвращать элементы навигации / меню, которые содержат элементы списка. Я только хочу получить данные внутри тела каждой написанной статьи.
Самым простым способом может быть поиск тега H1 (поскольку у большинства сайтов есть только 1 и его основной заголовок статьи ..., а затем вытащить элементы списка, которые отображаются ПОСЛЕ тега h1. должен теоретически устранить что-либо в главном меню ... но я не уверен, как это сделать в XPath.
Любая идея о том, какой наилучший подход может быть для достижения sh этого?