Scrapy: RSS-контроль pub_date - PullRequest
       8

Scrapy: RSS-контроль pub_date

0 голосов
/ 18 февраля 2011

Я делаю паук RSS. Как вы делаете для контроля последнего сканирования дата

Прямо сейчас, что я думал, это:

  • Поместите в контрольный файл последнюю опубликованную дату публикации.
  • Затем, когда начинается сканирование, он проверяет последнюю дату pub_d против новые pub_dates. Если есть новые предметы, то начните ползать, если нет, сделайте нет ничего.

Как все остальные решают это?

Ответы [ 2 ]

1 голос
/ 18 февраля 2011

Я храню все данные в базе данных (включая дату последнего сканирования и даты публикации) и беру все нужные мне даты из базы данных.

0 голосов
/ 29 сентября 2012

Я также храню все данные в базе данных и вычисляю значение хеш-значения из данных.Таким образом, вы сможете очень быстро искать хеш и выполнять операцию de-dup на лету.

...