что вы называете техникой паука, когда паук посещает все ссылки на первом уровне, а все ссылки на втором уровне - PullRequest
0 голосов
/ 28 октября 2009

я забыл имя для случая, когда веб-паук будет

сначала посещает все ссылки, которые видит на первом уровне. затем посещает все ссылки, которые видит на втором уровне. и так далее ...

есть название для этой техники .... я забыл ...

В любом случае, это очень исчерпывающе и, очевидно, неэффективно. Есть ли способ лучше ?

Я помню, как читал летом статью об эффективном сканировании веб-страниц (DSL или что-то в этом роде, я не знаю, что это означает) .... В общем, он обсуждал метод "Определите, какие URL могут содержать соответствующую информацию, и какие URL должны игнорироваться, такие как регистрация, ссылка для новой учетной записи ... и т. д. "

Я не прочитал это слишком подробно, если что-то из этого звонит в звонок, пожалуйста, напишите ссылку.

Ответы [ 2 ]

2 голосов
/ 28 октября 2009

Звучит как «поиск в ширину», а не «поиск в глубину». В первом из них вы, так сказать, рассматриваете все свои варианты в поперечном направлении, тогда как в последнем вы в первую очередь углубляете свои возможности на каждом пути. Это терминология ИИ, не уверен, что она популярна среди дизайнеров веб-инструментов. В любом случае, BFS потребляет много памяти, но обычно используется, когда вы хотите найти «оптимальный результат», что-то (на ваш взгляд) на самом мелком уровне, в то время как DFS имеет тенденцию использовать намного меньше памяти, но может упустить лучшие решения.

Если вы просто пытаетесь каталогизировать все ссылки, используйте DFS. Если вы пытаетесь найти что-то на минимальной глубине ссылки, используйте BFS.

1 голос
/ 04 марта 2013

Поиск в ширину.

В теории графов поиск в ширину (BFS) - это стратегия поиска в графе, когда поиск ограничен по существу двумя операциями: (a) посещение и проверка узла графа; (b) получить доступ для посещения узлов, которые соседствуют с посещаемым в данный момент узлом. BFS начинается с корневого узла и проверяет все соседние узлы. Затем для каждого из этих соседних узлов по очереди он проверяет их соседние узлы, которые не были посещены, и так далее. Сравните это с поиском по глубине.

http://en.wikipedia.org/wiki/Breadth-first_search

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...