Есть ли способ запустить Rcrawler без загрузки всех HTML-файлов? - PullRequest
0 голосов
/ 27 мая 2019

Я запускаю Rcrawler на очень большом веб-сайте, поэтому это занимает очень много времени (3+ дня с глубиной страницы по умолчанию). Есть ли способ не загружать все HTML, чтобы ускорить процесс?

Мне нужны только те URL-адреса, которые хранятся в INDEX. Или кто-нибудь может порекомендовать другой способ заставить Rcrawler работать быстрее?

Я пытался запустить его с меньшей глубиной страницы (5), но это все равно занимает вечность.

1 Ответ

0 голосов
/ 03 июня 2019

Я имею дело с той же проблемой.В зависимости от источника, в некоторых случаях я бегу на глубине 1.

Best, Janusz

...