Question

Я написал сканер, который отлично работает, если я использую настройки scrapy по умолчанию.Я уже протестировал его с 10K URL, но у меня есть миллионы URL для удаления, и я также хочу, чтобы это было быстро, поэтому я изменил значение CONCURRENT_REQUESTS по умолчанию на 300. Все отлично работает для первых нескольких 100 URL (он содержит проверенные выше 10K URL) но затем неожиданно остальная часть URL-адресов начала выдавать ошибку поиска DNS.Я не уверен, что вызвало эту проблему, URL, кажется, нашел, и он работал с настройками по умолчанию.

Мой сканер работает на компьютере с Windows 10, который имеет 2 ядра и 4 ГБ ОЗУ.

Gallaecio · Answer 1 · 05 июля 2019

См. Настройка собственного DNS раздела Broad Crawls документации Scrapy.

Сканирующий сканер выдает ошибку поиска DNS, увеличивая параллелизм паука.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сканирующий сканер выдает ошибку поиска DNS, увеличивая параллелизм паука.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов