Как избежать хранения повторяющихся результатов - PullRequest
0 голосов
/ 26 марта 2019

Я храню удаленный контент в CSV-файле.Каждая строка содержит уникальный идентификатор и описание элемента.

Мой идентификатор поступает с веб-сайта, на котором я удаляю содержимое, а не создается на стороне скребка.

Я использую feedExporter Scrapy для генерациифайл csv

Когда я снова проверяю свой веб-сайт, я бы хотел, чтобы мой скрипт проверял, сохранен ли уникальный идентификатор в файле csv, если нет, я бы добавил новую строку, если это простопереходите к следующему пункту.

Поскольку я предполагаю, что это классическая вещь, имеющая отношение к очищающему фреймворку, я считаю, что должен быть разумный способ сделать это с помощью Scrapy, однако я не могу найти ничего по этой темев документации Scrapy

Должен ли я просто открыть файл csv, просмотреть каждый элемент и, если значение итератора отсутствует, добавить новую строку или пропустить, если это так?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...