Как WordPress блокирует поисковые системы? - PullRequest
1 голос
/ 15 марта 2010

Если вы перейдете в wordpress admin , а затем settings-> privacy , есть два варианта, спрашивающих вас, хотите ли вы разрешить поиск в вашем блоге, хотя поисковыми системами, и этоопция:

Я хотел бы заблокировать поисковые системы, но разрешить обычным посетителям

Как WordPress фактически блокирует поисковые роботы / сканеры от поиска по этому сайту, когда сайтжить?

Ответы [ 5 ]

8 голосов
/ 15 марта 2010

Согласно кодексу , это просто robots метатеги, robots.txt и подавление пингбэков:

Заставляет <meta name='robots' content='noindex,nofollow' /> генерироваться в разделе (если используется wp_head) источника вашего сайта, в результате чего пауки поисковых систем игнорируют ваш сайт.

Вызывает попадания в robots.txt для отправки обратно:

User-agent: *

Disallow: /

Примечание. Вышеприведенное работает только в том случае, если WordPress установлен в корне сайта и robots.txt не существует.

Это "правила", которым будут следовать все дружественные боты. Эти настройки не будут затронуты вредоносным пауком, который ищет адреса электронной почты или формы для рассылки спама.

3 голосов
/ 15 марта 2010

С robots.txt (если установлен как root)

 User-agent: *
 Disallow: /

или (от здесь )

Я бы хотел заблокировать поисковые системы, но разрешить нормальным посетителям - проверьте это для этих результатов:

  • Причины "<meta name='robots' content='noindex,nofollow' />" быть генерируется в раздел (если используется wp_head) вашего источник сайта, в результате чего поисковая система пауки, чтобы игнорировать ваш сайт. * Вызывает попадания в robots.txt для отправки обратно:

        User-agent: * 
        Disallow: / 
    

    Примечание. Вышеприведенное работает только в том случае, если WordPress установлен в корне сайта и robots.txt не существует.

  • Останавливает ping для ping-o-matic и любых других служб ping RPC, указанных в Обновлении. Услуги Администрирования> Настройки> Написание. Это работает благодаря удалению функции privacy_ping_filter () сайты пингуются из списка. это фильтр добавляется с помощью add_filter ( 'option_ping_sites', 'privacy_ping_filter'); в default-фильтрах. Когда Функция generic_ping пытается получить опция "ping_sites", этот фильтр блокирует его от возврата чего-либо.

  • Скрывает параметр Службы обновления полностью на Администрирование> Настройки> Запись панель с сообщением «WordPress is не уведомлять службы обновления из-за конфиденциальности вашего блога Настройки ".

2 голосов
/ 15 марта 2010

Вы не можете блокировать ботов и сканеров от поиска на общедоступном сайте; если человек с браузером может видеть его, то бот или сканер могут видеть его (предостережение ниже).

Однако есть нечто, называемое стандартом исключения роботов (или стандартом robots.txt), которое позволяет указывать роботу и сканерам с хорошим поведением, что они не должны индексировать ваш сайт. Этот сайт , а также Википедия предоставляют дополнительную информацию.

Предостережение к приведенному выше комментарию о том, что то, что вы видите в своем браузере, может видеть бот, состоит в следующем: большинство простых ботов не содержат движок Javascript, поэтому все, что браузер отображает в результате кода Javascript, вероятно не будет замечен ботом. Я бы посоветовал вам не использовать это как способ избежать индексации, поскольку стандарт robots.txt не использует Javascript для обеспечения правильного отображения вашей страницы.

Последний комментарий: боты могут игнорировать этот стандарт. Эти боты плохо себя ведут. Суть в том, что все, что может читать ваш HTML, может делать с ним то, что ему нравится.

1 голос
/ 15 марта 2010

Использование файла Исключение роботов .

Пример:

User-agent: Google-Bot
Disallow: /private/
1 голос
/ 15 марта 2010

Я точно не знаю, но, вероятно, он генерирует файл robots.txt, который определяет правила для поисковых систем.

...