я забыл имя для случая, когда веб-паук будет
сначала посещает все ссылки, которые видит на первом уровне.
затем посещает все ссылки, которые видит на втором уровне.
и так далее ...
есть название для этой техники .... я забыл ...
В любом случае, это очень исчерпывающе и, очевидно, неэффективно. Есть ли способ лучше ?
Я помню, как читал летом статью об эффективном сканировании веб-страниц (DSL или что-то в этом роде, я не знаю, что это означает) .... В общем, он обсуждал метод "Определите, какие URL могут содержать соответствующую информацию, и какие URL должны игнорироваться, такие как регистрация, ссылка для новой учетной записи ... и т. д. "
Я не прочитал это слишком подробно, если что-то из этого звонит в звонок, пожалуйста, напишите ссылку.