rss to sql используя сороку и cron - PullRequest
0 голосов
/ 15 августа 2010

По сути, я хочу, чтобы мой сайт собирал много RSS-фидов и сохранял их в базе данных во время работы cron.я использую сорока, чтобы разобрать rss в массивы ... все должно показаться прямым, хотя я беспокоюсь о проблемах дублирования при запуске задания cron.

что является лучшим решением, чтобы избежать повторяющихся записей .... вотмоя теория, хотя я не думаю, что это эффективно.

теория заданий cron

1) анализировать RSS-поток с помощью сороки 2) создать хэш md5 ссылки 3) проверить наличие md5 в таблице базы данных ... если нет ... вставить ..если существует, игнорируйте или обновите

Дайте мне знать, если есть более эффективный способ

Ответы [ 2 ]

1 голос
/ 15 августа 2010

Ссылок может быть недостаточно, потому что статьи дублируются на нескольких сайтах. Однажды я создал систему сбора статей из множества газет, где одна и та же статья может появляться в нескольких источниках. Также сайт может публиковать одну и ту же статью по нескольким URL-адресам, например, когда статья представлена ​​в нескольких категориях.

Если вы действительно хотите убедиться, что статья не является дубликатом, сравните содержимое или хешированный код на ее основе.

1 голос
/ 15 августа 2010

Так как вы беспокоитесь о проблемах дублирования, как это может закончиться копированием?Если он найден на нескольких разных сайтах, я думаю, что лучше найти MD5 в первом предложении статьи или что-то в этом роде.

...