Экспортируйте элемент в Scrapy, запросив его у API (Scrapy 1.2.0 / Python 2.7) - PullRequest
0 голосов
/ 24 февраля 2020

Я управляю проектом Scrapy в моей компании. Каждый робот имеет свой собственный код, динамически записываемый в другой файл в момент начала сканирования.

Уже давно мы генерируем XML и передаем этот файл платформе PHP для его обработки. это было слишком громоздко, и при попытке обработать большой файл XML (3M элементов) мы использовали для экспорта до 2,5M, что приводило к довольно медленному, аварийному завершению процесса и пустому доступному объему памяти на компьютере.

Таким образом, мы экспортируем элементы через API REST. В прошлом мы сталкивались с некоторыми проблемами, когда имели дело с огромным объемом обрабатываемых запросов Scrapy, потребляющих всю память машины так быстро, что сканирование не закончилось sh. Мы использовали scopy JOBDIR, чтобы записать их на диск и избежать этого.

Вопрос в том, как правильно сделать это, не сталкиваясь с теми же проблемами с памятью.

...