Я запускаю Rcrawler на очень большом веб-сайте, поэтому это занимает очень много времени (3+ дня с глубиной страницы по умолчанию). Есть ли способ не загружать все HTML, чтобы ускорить процесс?
Мне нужны только те URL-адреса, которые хранятся в INDEX.
Или кто-нибудь может порекомендовать другой способ заставить Rcrawler работать быстрее?
Я пытался запустить его с меньшей глубиной страницы (5), но это все равно занимает вечность.