Как веб-лом, чтобы узнать о новых обновлениях на сайте - PullRequest
0 голосов
/ 09 апреля 2020

Я знаю, что это широкий вопрос, но я ищу идеи для go об этом. Не ищу точный закодированный ответ, но примерный план игры о том, как go об этом!

Я пытаюсь очистить сайт блога, чтобы проверить наличие новых сообщений в блоге и, если да, вернуть URL этой конкретной записи в блоге.

Этот вопрос состоит из 2 частей, а именно:

  1. Как узнать, обновился ли веб-сайт
  2. Как найти разницу (новый контент)

Мне интересно, какие подходы я мог бы go сделать в этом. Я использую Selenium довольно долго, и знаю, что с драйвером Selenium я могу проверить 1. с помощью driver.page_source.

Есть ли лучший способ сделать и 1 и 2 вместе, и, если возможно, даже на разных сайтах блогов (думая, можно ли написать более общий код, примененный к разным постам сразу, а не таможенный скрипт за каждый пост)?

Бонус: есть ли способ сделать "diff" для кода до и после, чтобы увидеть разницу и извлечь из него необходимую информацию?

Спасибо так много заранее!

Ответы [ 2 ]

1 голос
/ 09 апреля 2020

Если вы ищете способ узнать, были ли страницы добавлены или удалены, вы можете посмотреть непосредственно или создать копию файла sitemap. xml. Если у них нет карты сайта. xml, вы можете отсканировать меню и навигацию по сайту и создать свою собственную из этого. Файлы Sitemap имеют запись «Последнее изменение». Если вы знаете интервал, который вы просматриваете, вы можете довольно быстро рассчитать, произошло ли изменение в этом интервале. Это хорошо для изменений всего сайта.

Кроме того, вы также можете проверить заголовок сайта, чтобы определить время последнего изменения страницы. Примените ту же проверку интервала, что и карта сайта, и go оттуда.

0 голосов
/ 09 апреля 2020

Вы всегда можете проверить последнее измененное значение в заголовке веб-сайта:

https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Last-Modified

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...