Получить последние изменения на сайте - PullRequest
0 голосов
/ 16 марта 2012

Мне нужно создать программное обеспечение на Python, которое отслеживает сайты, когда происходят изменения.На данный момент у меня есть периодическое задание и я проверяю содержимое сайта с предыдущей версией.Есть ли какой-нибудь более простой способ проверить, изменился ли контент сайта, может быть, время последних изменений, чтобы избежать загрузки контента всегда?

Ответы [ 2 ]

4 голосов
/ 16 марта 2012

Вы можете использовать HTTP-метод HEAD и посмотреть заголовки Date-Modified и ETag и т. Д., Прежде чем фактически снова загрузить весь контент.

Однако ничто не гарантирует, что сервер действительно обновитсяэти заголовки, когда содержимое сущности (URL-адреса) изменяется или даже правильно реагирует на метод HEAD.

1 голос
/ 16 марта 2012

Хотя это не отвечает на ваш вопрос, я думаю, стоит упомянуть, что вам не нужно хранить предыдущую версию веб-сайта, чтобы искать изменения.Вы можете просто посчитать md5 сумму и сохранить ее, затем сосчитать для новой версии и проверить, равны ли они.

А что касается самого вопроса, AKX дал отличный ответ - просто ищитеDate-Modified заголовок, но помните, что он не гарантированно работает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...