Как StormCrawler идентифицирует начальные URL? - PullRequest
0 голосов
/ 20 сентября 2018

Я использую штормовый сканер с mysql.

У меня есть 100 исходных URL-адресов, но размер моего буфера составляет всего 50.

что произойдет, если исходящие ссылки с некоторых исходных файлов попадут в нулевой сегмент корзины,В этом случае эти ссылки также будут рассматриваться как семя?

как штурмовик отличает URL-адреса семян от других URL-адресов?

1 Ответ

0 голосов
/ 20 сентября 2018

Не уверен, что понимаю ваш вопрос.Нет разницы между начальными и не начальными.StormCrawler не идентифицирует их каким-либо конкретным способом.Термин начальные URL-адреса просто означает, что они заданы искателю в качестве отправной точки.

Сегменты не используются для определения приоритетов URL-адресов или их различия, они основаны на имени хоста илидомен, чтобы несколько экземпляров носика могли читать их параллельно и гарантировать хорошее разнообразие сайтов для повышения производительности.

Модуль SQL в StormCrawler не так эффективен, как другие бэкэнды, такие как SOLR или Elasticsearch.Он отлично работает на нескольких веб-сайтах, но, вероятно, менее эффективен.

...