Question

Я запускаю Rcrawler на очень большом веб-сайте, поэтому это занимает очень много времени (3+ дня с глубиной страницы по умолчанию). Есть ли способ не загружать все HTML, чтобы ускорить процесс?

Мне нужны только те URL-адреса, которые хранятся в INDEX. Или кто-нибудь может порекомендовать другой способ заставить Rcrawler работать быстрее?

Я пытался запустить его с меньшей глубиной страницы (5), но это все равно занимает вечность.

Janush · Answer 1 · 03 июня 2019

Я имею дело с той же проблемой.В зависимости от источника, в некоторых случаях я бегу на глубине 1.

Best, Janusz

Есть ли способ запустить Rcrawler без загрузки всех HTML-файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли способ запустить Rcrawler без загрузки всех HTML-файлов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы