Поисковые системы гарантии не очищают один подкаталог сайта - PullRequest
0 голосов
/ 22 ноября 2011

На сайте Linux, Apache, PHP, Мне нужно убедиться, что подкаталог / cms на моем сайте не доступен для поиска поисковыми системами .

Смотрите, в корне сайта я установил каталог продуктов под названием Pinnacle Cart. Они хотели страницу новостей, которая извлекает контент из CMS. Я подключил WordPress к Интернету в подкаталоге / cms, создал несколько сообщений, а затем использовал следующий код, чтобы перенести это в мою тему Pinnacle Cart:

<?php require_once('../../../cms/wp-blog-header.php'); ?>
<?php $i = 1; $MAX_ARTICLES_TO_SHOW = 5; ?>
<?php while (have_posts()): the_post(); ?>
    <div <?php post_class() ?> id="post-<?php the_id(); ?>">
        <h2><?php the_title(); ?></h2>
        <div class="entry">
            <?php the_content(); ?>
        </div><!-- .entry -->
        <div style="clear:both;">&nbsp;</div>
        <small><?php the_time('F j, Y') ?></small>
    </div><!-- #post-... -->
<?php ++$i; if ($i > $MAX_ARTICLES_TO_SHOW) { break; } ?>
<?php endwhile; ?>

Обратите внимание, что некоторые изображения, использованные в постах, будут извлечены из / cms, и я хочу, чтобы они нормально загружались, но я не хочу, чтобы Google или любая поисковая система следили за чем-либо в /cms.

Обратите внимание, что в WordPress в / cms я также отключил параметр "Не разрешать сайтам, таким как Google, Technorati и т. Д. Индексировать этот сайт."

Я думаю, мне нужно либо настроить тему по умолчанию для WordPress в / cms / wp-content / themes, либо поместить какой-то параметр .htaccess в папку / cms или / (root) сайт.

Ответы [ 4 ]

1 голос
/ 22 ноября 2011

Вы можете добавить это в свой файл robots.txt.

Disallow: /cms/

Подробнее об этом можно узнать на http://www.robotstxt.org/robotstxt.html

Хотя поисковые системы и скребки всегда могут это игнорировать (Самый большой поискдвигатели будут следовать правилам).Вы также можете проверить $_SERVER['HTTP_USER_AGENT'], но это может быть подделкой.Нет 100% способа остановить скребки.

0 голосов
/ 23 ноября 2011

robots.txt является одним из вариантов, как указано в других ответах здесь.

Disallow: /cms/

Основной недостаток файла robots.txt заключается в том, что они могут игнорироваться или просто игнорироваться в зависимости от робота..

У вас также есть возможность защитить каталог паролем, который не позволит поисковым системам индексировать страницу (Примеры статей из Google и Bing ).В зависимости от вашей серверной среды вы также можете запретить доступ к папке CMS, используя .htaccess и .htpasswd.Этот метод позволяет пользователям посещать установку Wordpress, но не боты / неаутентифицированные пользователи.

Другой вариант - установить заголовки 404 или 301 дляэтот конкретный каталог, снова используя .htaccess.Это, очевидно, остановит пользователей, посещающих его, и поэтому, если вы захотите заблокировать его только для ботов, вы можете внести в белый список определенные IP-адреса или строки агента пользователя, чтобы реальные пользователи могли видеть страницу, а боты - получать заголовок 404, что помешало бы индексировать страницу.

0 голосов
/ 22 ноября 2011

Почему бы не использовать robots.txt Это файл, который вы помещаете в свой корневой каталог, который все роботы читают перед сканированием вашего сайта.В этом файле вы можете указать каталоги, которые вы не хотите сканировать.Несколько ссылок для начала http://www.robotstxt.org/robotstxt.html http://codex.wordpress.org/Search_Engine_Optimization_for_WordPress#Robots.txt_Optimization

0 голосов
/ 22 ноября 2011

Загляните в файл robots.txt. Это файл, который читают поисковые системы перед сканированием вашего сайта. В этом файле вы можете указать им полностью игнорировать определенные каталоги.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...