Как поисковая система ботов сканирует форумы? - PullRequest
6 голосов
/ 07 ноября 2008

Если у меня есть форум с большим количеством тем, будет ли поисковый робот каждый раз сканировать весь сайт? Скажем, у меня на сайте более 1 000 000 тем, будут ли они сканироваться каждый раз, когда бот сканирует мой сайт? или как это работает? Я хочу, чтобы мой сайт был проиндексирован, но я не хочу, чтобы бот убил мой сайт! Другими словами, я не хочу, чтобы бот продолжал сканировать старые темы снова и снова каждый раз, когда сканирует мой веб-сайт.

Кроме того, как насчет страниц, просканированных ранее? Будет ли бот запрашивать их каждый раз, когда он сканирует мой сайт, чтобы убедиться, что они все еще на сайте? Я спрашиваю об этом, потому что я ссылаюсь только на последние темы, то есть есть страница, которая содержит список всех последних тем, но я не делаю ссылки на старые темы, они должны быть явно запрошены URL, например, http://example.com/showthread.aspx?threadid=7, это сработает, чтобы бот не мог закрыть мой сайт и использовать всю мою пропускную способность?

P.S. Сайт все еще находится в стадии разработки, но я хочу знать, чтобы спроектировать сайт так, чтобы боты поисковых систем его не закрывали.

Ответы [ 3 ]

8 голосов
/ 07 ноября 2008

Сложные вещи.

По моему опыту, от того, какую схему URL вы используете для связывания страниц, зависит, будет ли сканер сканировать какие страницы.

  • Большинство движков сканирует весь веб-сайт, если все они имеют правильную гиперссылку с URL-адресами, удобными для сканирования , например. используйте перезапись URL вместо themeID = 123 строки запроса и чтобы все страницы можно было легко связать несколькими щелчками мыши с главной страницы.

  • Другим случаем является подкачка страниц, если у вас иногда происходит подкачка, когда бот сканирует только первую страницу и останавливается, когда обнаруживает, что ссылка на следующую страницу продолжает нажимать на тот же документ, например. один index.php для всего сайта.

  • Вы не хотите, чтобы бот случайно зашел на какую-то веб-страницу, которая выполняет определенные действия, например, ссылка «Удалить тему», которая ссылается на «delete.php? topicID = 123», поэтому большинство сканеров проверят и эти случаи.

  • На странице Tools в SEOmoz также содержится много информации и информации о том, как работают некоторые сканеры, какую информацию он будет извлекать и жевать и т. Д. Вы можете использовать их для определения того, будут ли страницы глубоко внутри вашего форума, например годовой пост может сканироваться или нет.

  • А некоторые сканеры позволяют настраивать их поведение при сканировании ... что-то вроде Google Sitemaps . Вы могли бы сказать им, чтобы они сканировали и не сканировали, какие страницы и в каком порядке и т. Д. Я помню, что такие сервисы доступны также от MSN и Yahoo, но я никогда не пробовал сам.

  • Вы можете ограничить робота-обходчика, чтобы он не перегружал ваш сайт, предоставив файл robots.txt в корне сайта.

По сути, если вы создадите свой форум таким образом, чтобы URL-адреса не выглядели враждебно для сканеров, он будет весело сканировать весь веб-сайт.

0 голосов
/ 21 ноября 2008

Сканирующие роботы сканируют не весь сайт сразу, а несколько страниц при каждом посещении. Частота сканирования и количество просканированных страниц каждый раз сильно различаются для каждого сайта.

Каждая страница, проиндексированная Google, периодически сканируется, чтобы убедиться в отсутствии изменений.

Использование карты сайта, безусловно, полезно, чтобы поисковые системы проиндексировали как можно больше страниц.

0 голосов
/ 10 ноября 2008

Чтобы понять, что сказал чакрит, некоторые поисковые системы (в частности, Google) будут индексировать только те страницы, которые имеют только один или два параметра. После этого страница, как правило, игнорируется, вероятно, потому что она выглядит слишком динамичной и, следовательно, ненадежным URL.

Лучше всего создавать дружественные для SEO URL-адреса, которые не содержат параметров, но вместо этого скрывают реализацию за чем-то вроде mod_rewrite в Apache или маршрутов в Rails. (например, http://domain.com/forum/post/123 отображается на http://domain.com/forum/post.php?id=123).

Чакрит также упоминает Google Sitemaps . Это полезно для обеспечения того, чтобы Google сканировал каждую публикацию и постоянно сохранял ее в своем индексе. Джефф Этвуд обсуждает это в подкасте Stackoverflow 24 , в котором он объясняет, что Google не сохранял все сообщения Stackoverflow, пока они не поместили каждое сообщение в карту сайта.

...