Есть ли способ найти каноническое доменное имя для списка сайтов? - PullRequest
2 голосов
/ 31 декабря 2011

Я работаю над веб-приложением для отслеживания страниц и хочу получить канонический домен для списка сайтов.Насколько я знаю, нет хорошего способа узнать, где начинается и заканчивается владение сайтом поддоменами и доменами верхнего уровня.Я не уверен, что это лучший способ описать это, поэтому вот пример:

Если у меня есть личный URL, mysite.com, я могу настроить субдомены, такие как www.mysite.com, * 1005.* и т. д.

Если у моей "группы" есть веб-сайт в университете, например computerscience.myuni.edu, я мог бы также контролировать www.computerscience.myuni.edu, но не myuni.edu

Если я большой бизнес и мне нужно распространять веб-трафик, у меня может быть даже www.acme.com, ww2.acme.com, ww3.acme.com и т. Д.

Так что ничего не ясно, но если яс учетом URL, который я, вероятно, могу вырезать из www., ww2. и cdn. и, возможно, secure. спереди, но есть ли другие распространенные «поддомены», о которых я не думаю, которые являются довольно распространеннымии вообще не используется для обслуживания другого сайта?

Я думаю, я просто пытаюсь найти лучший способ получить настоящее "каноническое" доменное имя для сайта.

1 Ответ

2 голосов
/ 06 января 2012

Прежде всего, вы должны различать доменные имена и веб-сайты / URL-адреса.Я не думаю, что был какой-либо эффективный способ легко идентифицировать владельца веб-сайта, но в отношении доменного имени это можно вывести из его структуры.

Грубо говоря, полное доменное имя состоит из субдомен (ы) , имя и суффикс , и в вашем случае вы ищете каноническое доменное имя (имя + суффикс ).

Fully Qualified Domain Name Decomposition

Поскольку система доменных имен является иерархической, полное доменное имя, подобное www.example.com., должно читаться с конца до начала: .com.example.www и может быть разложено следующим образом:

  • Суффикс : com
  • Имя : example
  • Субдомен (ы) : www

Для вашей идентификации вы должны действовать в том же порядке:

  1. Суффикс : Найти суффикс, под которым имябыло зарегистрировано ( .com, .net, .co.uk, .com.es )
  2. Имя : укажите имя сразу после точки
  3. Субдомен (ы) : убрать оставшуюся часть строки.

Официальной базы данных со всеми общедоступными суффиксами не существует, однако по инициативе Mozilla Foundationнеофициальный был создан.Проект называется Public Suffix , целью которого является запись суффиксов, под которыми люди могут регистрировать доменные имена и иметь несколько реализаций для анализа базы данных .

Я написалстатья в моем личном блоге, представляющая систему доменных имен, если вам интересно, где я опишу структуру доменных имен более подробно: Что такое доменное имя и что за кулисами

...