Регулярное выражение для соответствия URL - PullRequest
23 голосов
/ 17 июля 2009

Я использую следующее регулярное выражение для сопоставления URL:

$search  = "/([\S]+\.(MUSEUM|TRAVEL|AERO|ARPA|ASIA|COOP|INFO|NAME|BIZ|CAT|COM|INT|JOBS|NET|ORG|PRO|TEL|AC|AD|AE|AF|AG|AI|AL|AM|AN|AO|AQ|AR|AS|AT|AU|au|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BJ|BL|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|EH|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|IO|IQ|IR|IS|IT|JE|JM|JO|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MF|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MV|MW|MX|MY|MZ|NA|NC|NE|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TF|TG|TH|TJ|TK|TL|TM|TN|TO|R|H|TP|TR|TT|TV|TW|TZ|UA|UG|UK|UM|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|YE|YT|YU|ZA|ZM|ZW)([\S]*))/i";

Но он немного облажался, потому что он также соответствует "abc.php", который я не хочу. и что-то вроде abc ... test. Я хочу, чтобы он совпадал с abc.com. и www.abc.com, а также http://abc.com.

Просто нужно немного подправить в конце, но я не уверен, что. (должна быть косая черта после любого доменного имени, которое оно сейчас не проверяет и только проверяет \ S)

спасибо за ваше время.

Ответы [ 14 ]

0 голосов
/ 18 февраля 2013

Regex для соответствия всем URL-адресам (с www, без www, с http или https, без http или https, включает все 2-6-буквенные доменные имена верхнего уровня [для стран, ex 'ly', 'us'], порты , строки запроса и якоря ['#']). Это не 100%, но это лучше, чем все, что я видел в сети.

Он использует домены верхнего уровня из первого ответа в сочетании с другими методами, найденными в моих поисках. Он вернет любой действительный URL, имеющий границы, именно здесь \ b вступает в игру. Поскольку завершающий символ '/' также запускается \ b, последний из них соответствует одному или нескольким '?'.

/\b((http(s?):\/\/)?([a-z0-9\-]+\.)+(MUSEUM|TRAVEL|AERO|ARPA|ASIA|EDU|GOV|MIL|MOBI|COOP|INFO|NAME|BIZ|CAT|COM|INT|JOBS|NET|ORG|PRO|TEL|A[CDEFGILMNOQRSTUWXZ]|B[ABDEFGHIJLMNORSTVWYZ]|C[ACDFGHIKLMNORUVXYZ]|D[EJKMOZ]|E[CEGHRSTU]|F[IJKMOR]|G[ABDEFGHILMNPQRSTUWY]|H[KMNRTU]|I[DELMNOQRST]|J[EMOP]|K[EGHIMNPRWYZ]|L[ABCIKRSTUVY]|M[ACDEFGHKLMNOPQRSTUVWXYZ]|N[ACEFGILOPRUZ]|OM|P[AEFGHKLMNRSTWY]|QA|R[EOSUW]|S[ABCDEGHIJKLMNORTUVYZ]|T[CDFGHJKLMNOPRTVWZ]|U[AGKMSYZ]|V[ACEGINU]|W[FS]|Y[ETU]|Z[AMW])(:[0-9]{1,5})?((\/([a-z0-9_\-\.~]*)*)?((\/)?\?[a-z0-9+_\-\.%=&]*)?)?(#[a-zA-Z0-9!$&'()*+.=-_~:@/?]*)?)/gi
0 голосов
/ 25 июля 2012

Просто чтобы добавить к вещам. Я знаю, что это не полностью и не дает прямого ответа на этот конкретный вопрос, но это лучшее место, которое я могу найти, чтобы добавить эту информацию. Некоторое время назад я написал плагин jQuery для сопоставления URL-адресов для аналогичной цели, однако при текущем состоянии (будет обновлять его с течением времени) он все равно будет считать адреса, подобные 'http://abc.php', действительными. Однако если при запуске URL-адреса нет http, https или ftp, он не вернет значение «valid». Хотя я должен пояснить, этот метод jQuery возвращает объект, а не только одну строку или логическое значение. Объект разбивает вещи на части, и среди них - логическое значение .valid. Посмотрите полную скрипку и проверьте ссылку внизу. Если вы просто хотите взять плагин и перейти, см. Ниже:

Плагин jQuery

(function($){$.matchUrl||$.extend({matchUrl:function(c){var b=void 0,d="url,,scheme,,authority,path,,query,,fragment".split(","),e=/^(([^\:\/\?\#]+)\:)?(\/\/([^\/\?\#]*))?([^\?\#]*)(\?([^\#]*))?(\#(.*))?/,a={url:void 0,scheme:void 0,authority:void 0,path:void 0,query:void 0,fragment:void 0,valid:!1};"string"===typeof c&&""!=c&&(b=c.match(e));if("object"===typeof b)for(x in b)d[x]&&""!=d[x]&&(a[d[x]]=b[x]);a.scheme&&a.authority&&(a.valid=!0);return a}});})(jQuery);

jsFiddle с примером:

http://jsfiddle.net/SpYk3/e4Ank/

0 голосов
/ 22 августа 2011

(http|www)\S+

Просто используйте это регулярное выражение для сопоставления всех URL

0 голосов
/ 17 июля 2009

$: доллар означает конец строки.
Например, \ d * $ будет соответствовать строкам, которые заканчиваются цифрой. Так что вам нужно добавить $!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...