Я управляю проектом Scrapy в моей компании. Каждый робот имеет свой собственный код, динамически записываемый в другой файл в момент начала сканирования.
Уже давно мы генерируем XML и передаем этот файл платформе PHP для его обработки. это было слишком громоздко, и при попытке обработать большой файл XML (3M элементов) мы использовали для экспорта до 2,5M, что приводило к довольно медленному, аварийному завершению процесса и пустому доступному объему памяти на компьютере.
Таким образом, мы экспортируем элементы через API REST. В прошлом мы сталкивались с некоторыми проблемами, когда имели дело с огромным объемом обрабатываемых запросов Scrapy, потребляющих всю память машины так быстро, что сканирование не закончилось sh. Мы использовали scopy JOBDIR, чтобы записать их на диск и избежать этого.
Вопрос в том, как правильно сделать это, не сталкиваясь с теми же проблемами с памятью.