Question

Я управляю проектом Scrapy в моей компании. Каждый робот имеет свой собственный код, динамически записываемый в другой файл в момент начала сканирования.

Уже давно мы генерируем XML и передаем этот файл платформе PHP для его обработки. это было слишком громоздко, и при попытке обработать большой файл XML (3M элементов) мы использовали для экспорта до 2,5M, что приводило к довольно медленному, аварийному завершению процесса и пустому доступному объему памяти на компьютере.

Таким образом, мы экспортируем элементы через API REST. В прошлом мы сталкивались с некоторыми проблемами, когда имели дело с огромным объемом обрабатываемых запросов Scrapy, потребляющих всю память машины так быстро, что сканирование не закончилось sh. Мы использовали scopy JOBDIR, чтобы записать их на диск и избежать этого.

Вопрос в том, как правильно сделать это, не сталкиваясь с теми же проблемами с памятью.

Экспортируйте элемент в Scrapy, запросив его у API (Scrapy 1.2.0 / Python 2.7)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Экспортируйте элемент в Scrapy, запросив его у API (Scrapy 1.2.0 / Python 2.7)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы