Как программно определить изменение структуры сайта - PullRequest
0 голосов
/ 17 декабря 2018

В рамках реализации сканера Python Scrapy я хотел бы добавить надежный механизм для мониторинга / обнаружения потенциальных изменений макета на веб-сайте.

Эти изменения не обязательно влияют на существующего паука.селекторы - например, сайт добавляет новый HTML-элемент для представления количества посетителей, которое получил элемент - элемент, который я теперь мог бы заинтересовать в разборе.Сказав это, обнаружение проблем селектора (Xpath / CSS) также было бы полезно в случае, когда они удалены / перемещены.

Обратите внимание, что речь идет не об изменении содержания селектора или обновлении сайта (if-modified-since или last-modified), а скорее об изменении структуры / узлов / макета сайта.

Следовательно, как реализовать логику для наблюдения за такими обстоятельствами?

1 Ответ

0 голосов
/ 17 декабря 2018

Это на самом деле тема для исследования, как вы можете видеть на этой статье , но, конечно, есть некоторые реализованные инструменты, которые вы можете проверить:

Основой для сравнения (на предыдущих подходах) является использование Tree Edit Distance макета HTML.

...