Question

Я использую штормовый сканер с mysql.

У меня есть 100 исходных URL-адресов, но размер моего буфера составляет всего 50.

что произойдет, если исходящие ссылки с некоторых исходных файлов попадут в нулевой сегмент корзины,В этом случае эти ссылки также будут рассматриваться как семя?

как штурмовик отличает URL-адреса семян от других URL-адресов?

Julien Nioche · Answer 1 · 20 сентября 2018

Не уверен, что понимаю ваш вопрос.Нет разницы между начальными и не начальными.StormCrawler не идентифицирует их каким-либо конкретным способом.Термин начальные URL-адреса просто означает, что они заданы искателю в качестве отправной точки.

Сегменты не используются для определения приоритетов URL-адресов или их различия, они основаны на имени хоста илидомен, чтобы несколько экземпляров носика могли читать их параллельно и гарантировать хорошее разнообразие сайтов для повышения производительности.

Модуль SQL в StormCrawler не так эффективен, как другие бэкэнды, такие как SOLR или Elasticsearch.Он отлично работает на нескольких веб-сайтах, но, вероятно, менее эффективен.

Как StormCrawler идентифицирует начальные URL?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как StormCrawler идентифицирует начальные URL?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы