Аспект SEO, как правило, связан со словами в URL, поэтому вы можете игнорировать любые числовые части. Обычно SEO применяется к группе одинакового контента, такого, который имеет общий базовый URL, например:
База www.domain.ext/article
, с примерами URL:
- www.domain.ext / статьи / 2011/06/15 / человек-укусы собака
- www.domain.ext / статьи / 2010/12 / 01 / красота-не-только-неглубокий
Такой, что SEO-аспект URL является суффиксом. Алгоритм, который нужно применить, - это указать каждую «папку» после общей базы, присвоив ей «тип данных» - числовой, текстовый, буквенно-цифровой, а затем счет следующим образом:
- Код ответа HTTP: 200 : должно быть очевидным, но вы можете получить 404
www.domain.ext/errors/file-not-found
, который пройдет другие перечисленные проверки.
- Не числовой, с разделителями, с проверкой орфографии : разделителями обычно являются тире, подчеркивания или пробелы. Возьмите каждое слово и выполните проверку правописания. Если слова действительны - включая собственные имена.
- Текст с проверкой орфографии URL на странице Если текст проходит проверку орфографии, проанализируйте содержимое страницы, чтобы увидеть, появляется ли он там.
- Проверенный орфографией текст URL на странице внутри тега : если значение true равно true, отметьте еще раз, если весь текст находится внутри тега HTML.
- Тег важен : если значение равно true и тег - тег
<title>
или <h#>
.
Обычно при таком подходе вы получаете максимум 5 баллов, если только несколько папок в URL не соответствуют критериям, а более высокие значения лучше. Теперь вы, вероятно, можете улучшить это, используя подход байесовской вероятности , который использует вышеупомянутые URL для отслеживания (т. Е. Обнаруживает возникновение какого-либо явления) URL, а также предлагает некоторые другие умные функции. Но тогда вы должны тренировать алгоритм, который может не стоить того.
Теперь, основываясь на вашем примере, вы также хотите захватить ситуации, когда URL был разработан так, что искатель будет индексировать, потому что вместо этого параметры запроса являются частью URL. В этом случае вы все еще можете типизировать папки суффиксов для получения шаблонов типов данных - в вашем примере, когда общий префикс всегда отслеживается целым числом - и оценивать эти URL-адреса как дружественные для SEO.