Я использую замечательный сценарий под названием php -spider с целью удаления Заголовка, Des c, H1, H2, H3 и H4 с нескольких веб-сайтов. В рамках настройки сценария необходимо установить XpathExpressionDiscoverer, чтобы указать сценарию, как искать дополнительные гиперссылки на каждой странице для сканирования. Я предполагаю, что это относится к стандартному языку запросов Xpath.
Моя цель - найти XpathExpressionDiscoverer, который обычно будет работать для большинства веб-сайтов (а не требовать, чтобы я настраивал его для каждого сайта).
Вот что я пробовал:
Я заметил, * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *} * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 101 * * * *. 1013 * Поскольку моей целью является просто обнаружение любых гиперссылок на странице, я попытался расширить XPath до чего-то более общего ("// a"), как показано ниже:
// We add an URI discoverer. Without it, the spider wouldn't get past the seed resource.
$spider->getDiscovererSet()->set(new XPathExpressionDiscoverer("//a"));
Пока этот новый Xpath успешно сканирует пример сайта (dmoztools. net), он не работает для других примеров, которые я пытаюсь (ниже). Он просто сканирует начальную страницу, но не может обнаружить или сканировать дополнительные URI на странице (даже если они имеют теги HREF, которые должны соответствовать Xpath).
Пример A: https://www.petco.com/shop/en/petcostore/category/fish
Пример B: https://www.thetruthaboutcars.com/
Вы случайно не видели, где я иду не так? Спасибо!