Обнаружение поисковой оптимизации (SEO) - PullRequest
4 голосов
/ 28 января 2011

Как клиент может определить, использует ли сервер Методы поисковой оптимизации , такие как использование mod_rewrite для реализации "SEO дружественных URL-адресов".

Например:

Обычный URL: http://somedomain.com/index.php?type=pic&id=1

SEO дружественный URL: http://somedomain.com/pic/1

Ответы [ 6 ]

5 голосов
/ 10 июня 2011

Поскольку mod_rewrite работает на стороне сервера, клиент никак не может его обнаружить.

Единственное, что вы можете сделать на стороне клиента, - это поискать некоторые подсказки:* Является ли HTML сгенерированным динамическим и что меняется между вызовами?Тогда / pic / 1 должен быть обработан каким-то скриптом и, скорее всего, не является реальным URL.

Как было сказано ранее: есть ли <link rel="canonical"> теги?Затем веб-сайт любит указывать поисковой системе, какой URL-адрес должен содержать несколько одинаковых материалов. Измените части URL и посмотрите, получите ли вы 404. В /pic/1 я бы изменил "1".
Если нет mod_rewrite, он вернет 404. Если это так,ошибка обрабатывается языком сценариев на стороне сервера и может возвращать 404, но в большинстве случаев возвращает 200 страниц, печатая ошибку.
3 голосов
/ 16 июня 2011

Аспект SEO, как правило, связан со словами в URL, поэтому вы можете игнорировать любые числовые части. Обычно SEO применяется к группе одинакового контента, такого, который имеет общий базовый URL, например:

База www.domain.ext/article, с примерами URL:

  • www.domain.ext / статьи / 2011/06/15 / человек-укусы собака
  • www.domain.ext / статьи / 2010/12 / 01 / красота-не-только-неглубокий

Такой, что SEO-аспект URL является суффиксом. Алгоритм, который нужно применить, - это указать каждую «папку» после общей базы, присвоив ей «тип данных» - числовой, текстовый, буквенно-цифровой, а затем счет следующим образом:

  1. Код ответа HTTP: 200 : должно быть очевидным, но вы можете получить 404 www.domain.ext/errors/file-not-found, который пройдет другие перечисленные проверки.
  2. Не числовой, с разделителями, с проверкой орфографии : разделителями обычно являются тире, подчеркивания или пробелы. Возьмите каждое слово и выполните проверку правописания. Если слова действительны - включая собственные имена.
  3. Текст с проверкой орфографии URL на странице Если текст проходит проверку орфографии, проанализируйте содержимое страницы, чтобы увидеть, появляется ли он там.
  4. Проверенный орфографией текст URL на странице внутри тега : если значение true равно true, отметьте еще раз, если весь текст находится внутри тега HTML.
  5. Тег важен : если значение равно true и тег - тег <title> или <h#>.

Обычно при таком подходе вы получаете максимум 5 баллов, если только несколько папок в URL не соответствуют критериям, а более высокие значения лучше. Теперь вы, вероятно, можете улучшить это, используя подход байесовской вероятности , который использует вышеупомянутые URL для отслеживания (т. Е. Обнаруживает возникновение какого-либо явления) URL, а также предлагает некоторые другие умные функции. Но тогда вы должны тренировать алгоритм, который может не стоить того.

Теперь, основываясь на вашем примере, вы также хотите захватить ситуации, когда URL был разработан так, что искатель будет индексировать, потому что вместо этого параметры запроса являются частью URL. В этом случае вы все еще можете типизировать папки суффиксов для получения шаблонов типов данных - в вашем примере, когда общий префикс всегда отслеживается целым числом - и оценивать эти URL-адреса как дружественные для SEO.

3 голосов
/ 28 января 2011
1 голос
/ 16 июня 2011

Полагаю, вы будете использовать варианты curl.

Вы можете попробовать отправить тот же запрос, но с разными значениями "пользовательского агента".

т.е. отправьте запрос один, используя пользовательский агент "Mozzilla / 5.0", и второй раз, используя пользовательский агент "Googlebot", если сервер делает что-то особенное для веб-сканеров, тогда должен быть другой ответ

0 голосов
/ 11 января 2016

Для шаблона динамического URL лучше использовать тег <link rel="canonical" href="..." /> для другого дубликата

0 голосов
/ 16 июня 2011

С сегодняшними фреймворками и маршрутизацией URL, мне даже не нужно использовать mod_rewrite для создания дружественных URL, таких как http://somedomain.com/pic/1, поэтому я сомневаюсь, что вы сможете обнаружить что-либо.Я бы создал такие URL для всех посетителей, сканеров или нет.Может быть, вы можете подделать некоторые заголовки ботов, чтобы сделать вид, что вы - известный сканер, и посмотреть, есть ли какие-то изменения.Не знаю, насколько это законно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...