Сканирующий сканер выдает ошибку поиска DNS, увеличивая параллелизм паука. - PullRequest
1 голос
/ 28 июня 2019

Я написал сканер, который отлично работает, если я использую настройки scrapy по умолчанию.Я уже протестировал его с 10K URL, но у меня есть миллионы URL для удаления, и я также хочу, чтобы это было быстро, поэтому я изменил значение CONCURRENT_REQUESTS по умолчанию на 300. Все отлично работает для первых нескольких 100 URL (он содержит проверенные выше 10K URL) но затем неожиданно остальная часть URL-адресов начала выдавать ошибку поиска DNS.Я не уверен, что вызвало эту проблему, URL, кажется, нашел, и он работал с настройками по умолчанию.

Мой сканер работает на компьютере с Windows 10, который имеет 2 ядра и 4 ГБ ОЗУ.

1 Ответ

0 голосов
/ 05 июля 2019

См. Настройка собственного DNS раздела Broad Crawls документации Scrapy.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...