Я не знаю ни одного решения с открытым исходным кодом "из коробки", чтобы сделать это, поэтому я считаю, что вам нужно написать собственный паук / сканер для выполнения вашей задачи;для этого потребуется предоставить следующие услуги:
Планирование - когда должно произойти сканирование.Обычно используется системная служба 'cron' в Unix-подобных системах или планировщик задач в Windows.
Получение - получение целевых страниц.Использование скриптового языка, такого как Perl, или специального системного инструмента, такого как 'curl' или 'wget'.
Извлечение / нормализация - удаление всего из цели (полученной страницы), кроме содержимогоинтерес.Нужно компенсировать изменение разделов цели, которые не имеют отношения к задаче, таких как даты или реклама.Обычно выполняется с помощью языка сценариев, который поддерживает регулярные выражения (для тривиальных случаев) или библиотеки синтаксического анализатора HTML (для более специализированных извлечений).
Контрольная сумма - преобразование цели в уникальный идентификатор, определяемый ее содержимым.Используется для определения изменений в цели с момента последнего сканирования.Выполняется системным инструментом (таким как команда Linux cksum) или языком сценариев.
Обнаружение изменений - сравнение ранее сохраненной контрольной суммы для последней найденной цели с недавно вычисленной контрольной суммой для текущего поиска.Опять же, обычно используется язык сценариев.
Оповещение - информирование пользователей об обнаруженных изменениях.Обычно через электронную почту или текстовое сообщение.
Управление состоянием - хранение целевых URI, правил извлечения, пользовательских настроек и контрольных сумм цели из предыдущего запуска.Используются как файлы конфигурации, так и базы данных (например, Mysql).
Обратите внимание, что этот список служб пытается описать систему абстрактно и поэтому звучит намного сложнее, чем реальный инструмент, который вы используете.создать будет.Я уже писал несколько подобных систем, поэтому я ожидаю, что простое решение, написанное на Perl (с использованием стандартных модулей Perl) и работающее в Linux, потребует сотни строк или около того для пары целевых сайтов в зависимости от сложности извлечения.