Как я могу найти ссылку на сайт, как с регулярным выражением - PullRequest
2 голосов
/ 01 августа 2010

HI

Я хочу опцию regex, чтобы найти ссылки на веб-сайты, как здесь:

www.yahoo.com
yahoo.com
http://www.yahoo.com
http://yahoo.com
yahoo.jp ( or any domain)
http://yahoo.fr

Есть ли в любом случае, чтобы отследить их всех с помощью regex?

Ответы [ 2 ]

1 голос
/ 01 августа 2010

Я собираюсь выбросить здесь альтернативу, а не RegEx.Взгляните на HTML Agility Pack , ваш случай будет выглядеть так:

var doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[contains(@href, 'yahoo')]"])
{
  var href = link["href"];
  //href is a url that contains the word `yahoo`, do something with it
}

Это не совсем ответ на вопрос, который вы написали,просто что-то, чтобы держать ваши настройки открытыми, так как У RegEx могут быть другие проблемы при применении к HTML .

0 голосов
/ 01 августа 2010

Это регулярное выражение от daringfireball.net должно быть способно делать то, что вы хотите.Я не уверен насчет domain.tld, поскольку это очень неоднозначно.

(?xi)
\b
(                           # Capture 1: entire matched URL
  (?:
    [a-z][\w-]+:                # URL protocol and colon
    (?:
      /{1,3}                        # 1-3 slashes
      |                             #   or
      [a-z0-9%]                     # Single letter or digit or '%'
                                    # (Trying not to match e.g. "URI::Escape")
    )
    |                           #   or
    www\d{0,3}[.]               # "www.", "www1.", "www2." … "www999."
    |                           #   or
    [a-z0-9.\-]+[.][a-z]{2,4}/  # looks like domain name followed by a slash
  )
  (?:                           # One or more:
    [^\s()<>]+                      # Run of non-space, non-()<>
    |                               #   or
    \(([^\s()<>]+|(\([^\s()<>]+\)))*\)  # balanced parens, up to 2 levels
  )+
  (?:                           # End with:
    \(([^\s()<>]+|(\([^\s()<>]+\)))*\)  # balanced parens, up to 2 levels
    |                                   #   or
    [^\s`!()\[\]{};:'".,<>?«»“”‘’]        # not a space or one of these punct chars
  )
)

Для получения более подробной информации о том, что он делает, посмотрите http://daringfireball.net/2010/07/improved_regex_for_matching_urls

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...