Я пытаюсь очистить форум до определенной даты, скажем, 2018-01-01.
Проблема:
Допустим, страница форума - это страница, содержащая список сообщений без даты. Проблема в том, что информация о дате каждого поста существует только на странице поста (в которой отображается фактическое содержание этого поста). Таким образом, я не мог знать дату, прежде чем я фактически очистил каждый пост в списке постов. Я должен сделать еще один запрос, чтобы очистить страницу публикации , чтобы сначала получить информацию о дате, а затем решить, следует ли продолжать следить за страницей страницы форума .
Я ожидаю, что паук будет следить за страницей на форуме нумерации страниц до тех пор, пока не будет удалено сообщение с датой 2018-01-01.
Текущий подход:
Чтобы остановиться после даты 2018-01-01, я создал свойство класса post_cont_dict
, чтобы определить, должен ли паук продолжать следовать за страницей форума . Когда дата до 2018-01-01 будет получена со страницы post , паук вытащит ключ . Перед запросом поста , паук сначала проверяет, есть ли у post_cont_dict
ключ ( также здесь ) для страницы форума .
Я также дал посту более высокий приоритет, чем форуму , чтобы избежать форуму запросов, выпущенных позже посту . Однако это не остановило моего подхода.
Вот мой код https://github.com/spacegoing/sentiment_mqd/blob/test/guba_spiders/guba_spiders/spiders/guba_spider.py