Регулярное выражение для соответствия имени хоста DNS или IP-адресу? - PullRequest
352 голосов
/ 20 сентября 2008

Есть ли у кого-нибудь удобное регулярное выражение, которое будет соответствовать любому допустимому имени хоста DNS или IP-адресу?

Легко написать тот, который работает в 95% случаев, но я надеюсь получить что-то, что хорошо протестировано, чтобы точно соответствовать последним спецификациям RFC для имен хостов DNS.

Ответы [ 21 ]

509 голосов
/ 20 сентября 2008

Вы можете использовать следующие регулярные выражения отдельно или комбинируя их в объединенном выражении OR.

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex соответствует действительным IP-адресам и ValidHostnameRegex действительным именам хостов. В зависимости от языка, который вы используете, \ может быть экранировано с помощью \.


ValidHostnameRegex действителен согласно RFC 1123 . Первоначально RFC 952 указывал, что сегменты имени хоста не могут начинаться с цифры.

http://en.wikipedia.org/wiki/Hostname

Оригинальная спецификация имена хостов в RFC 952 , поручено, чтобы ярлыки не могли начаться с цифрой или с дефисом, и не должен заканчиваться дефисом. Тем не менее, последующая спецификация ( RFC 1123 ) разрешенные метки имени хоста для запуска с цифрами.

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";
60 голосов
/ 29 сентября 2010

Регулярное выражение имени хоста smink не ограничивает длину отдельных меток в имени хоста. Каждая метка в пределах допустимого имени хоста может быть длиной не более 63 октетов.

ValidHostnameRegex="^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])\
(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$"

Обратите внимание, что обратная косая черта в конце первой строки (выше) - это синтаксис оболочки Unix для разбиения длинной строки. Это не часть самого регулярного выражения.

Вот только одно регулярное выражение в одной строке:

^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$

Вы также должны отдельно проверить, что общая длина имени хоста не должна превышать 255 символов . Для получения дополнительной информации, пожалуйста, обратитесь к RFC-952 и RFC-1123.

30 голосов
/ 22 января 2013

Чтобы соответствовать действительному IP-адресу , используйте следующее регулярное выражение:

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

вместо:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

Объяснение

Многие движки регулярных выражений соответствуют первой возможности в последовательности OR. Например, попробуйте следующее регулярное выражение:

10.48.0.200

Test

Проверьте разницу между хорошо против плохо

4 голосов
/ 04 марта 2010

Я не могу редактировать верхнюю запись, поэтому я добавлю свой ответ сюда.

Для имени хоста - простой ответ, на примере egrep здесь - http: //www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

Хотя в этом случае не учитываются такие значения, как 0 в первом октете, и значения, превышающие 254 (IP-адрес) или 255 (маска сети). Может быть, дополнительное заявление if поможет.

Что касается допустимого имени хоста DNS, при условии, что вы проверяете только имена хостов в Интернете (а не в интрасети), я написал следующий фрагмент кода shell / php, но он должен быть применим в качестве любого регулярного выражения.

сначала зайдите на сайт ietf, скачайте и проанализируйте список разрешенных доменных имен уровня 1:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

Это должно дать вам хороший фрагмент кода, который проверяет законность верхнего доменного имени, например .com .org или .ca

Затем добавьте первую часть выражения в соответствии с указаниями, приведенными здесь - http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9 (любая буквенно-цифровая комбинация и символ «-», тире следует не быть в начале или в конце октета.

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

Затем соедините все вместе (пример PHP preg_match):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

Вы также можете добавить оператор if, чтобы проверить, что проверяемая вами строка короче 256 символов - http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html

2 голосов
/ 05 мая 2018

Стоит отметить, что есть библиотеки для большинства языков, которые делают это для вас, часто встроенные в стандартную библиотеку. И эти библиотеки, вероятно, будут обновляться гораздо чаще, чем код, который вы скопировали из ответа Stack Overflow четыре года назад и о котором забыли. И, конечно же, они, как правило, также разбирают адрес в какую-то пригодную для использования форму, а не просто дают вам совпадение с группой групп.

Например, обнаружение и анализ IPv4 в (POSIX) C:

#include <arpa/inet.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
  for (int i=1; i!=argc; ++i) {
    struct in_addr addr = {0};
    printf("%s: ", argv[i]);
    if (inet_pton(AF_INET, argv[i], &addr) != 1)
      printf("invalid\n");
    else
      printf("%u\n", addr.s_addr);
  }
  return 0;
}

Очевидно, что такие функции не будут работать, если вы попытаетесь, например, найти все действительные адреса в сообщении чата, но даже там может быть проще использовать простое, но чрезмерно усердное регулярное выражение для поиска потенциальных совпадений, и затем используйте библиотеку для их анализа.

Например, в Python:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass
2 голосов
/ 14 июня 2011
def isValidHostname(hostname):

    if len(hostname) > 255:
        return False
    if hostname[-1:] == ".":
        hostname = hostname[:-1]   # strip exactly one dot from the right,
                                   #  if present
    allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
    return all(allowed.match(x) for x in hostname.split("."))
1 голос
/ 12 февраля 2012

Я думаю, что это лучшее регулярное выражение проверки IP. пожалуйста, проверьте это один раз !!!

^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$
1 голос
/ 21 апреля 2013
/^(?:[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])(?:\.[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])?$/

localhost же есть

1 голос
/ 30 января 2015

Это работает для действительных IP-адресов:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'
1 голос
/ 03 марта 2014
"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...