Scrapy внезапно закрывается в большом списке URL - PullRequest
0 голосов
/ 18 декабря 2018

Позвольте мне описать поток моего паука: сначала я предоставлю около 300 URL.Scrapy начинает сканировать первые 10 URL (настраивается ли 10?) Затем для каждого URL есть 2 действия:

  • Первое действие: Паук переходит ко всем элементам, перечисленным на странице (48 элементов)).

    • Для каждого элемента я сканирую все нумерации страниц.Он может получить до 50 или более отзывов об элементе и сохранить их в Postgres.
  • Второе действие: Паук выбирает следующую страницу и выполняет ту же самую процедуру снова

Глубина для моего Scrapy составляет 20, поэтому, если мы сделаем некоторые вычисления, общее число просканированных страниц должно составить:

300 * 20 * 48 * 50 = 14 400 000 страниц в один обход.Это то, на что способен Scrapy?Мой сервер имеет 8 ГБ ОЗУ

Теперь происходит то, что Scrapy теряется с первыми 10 URL-адресами и никогда не выходит за рамки этого.Ребята, вы знаете, почему это случилось?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...