REGEX: получить ссылки на веб-страницы - PullRequest
0 голосов
/ 15 февраля 2012

Я начал изучать REGEX 2 дня назад, теперь я хотел бы создать небольшое приложение, которое считывает исходный код веб-страницы и получает веб-страницы, такие как http://page.com или http://www.page.com/sub/sub/sub?=value и т. Д .... ., все в таком духе, вот код, который я набрал:

Regex r = new Regex("http://\\w");

        HttpWebRequest httpwebrequest = (HttpWebRequest)WebRequest.Create("http://maktoob.yahoo.com/?p=us");
        HttpWebResponse response = (HttpWebResponse)httpwebrequest.GetResponse();

        StreamReader sr = new StreamReader(response.GetResponseStream());

        string line;

        while ((line = sr.ReadLine()) != null)
        {
            Match m = r.Match(line);
            if (m.Success)
            {
                Console.WriteLine("Match: " +m.Value);
            }
        }
        sr.Close();
        response.Close();

Но результат:

Совпадение: http://l Совпадение: http://w Совпадение: http://x Совпадение: http://l Совпадение: http://q

Это просто получить первый символ после // Когда я посмотрел на свой шаблон, я сказал: lol, да, мой шаблон http://\w, поэтому он получит первый символ, но я хотел знать, что я должен добавить к своему шаблону, чтобы он получил остальную часть ссылки ????

Ответы [ 4 ]

1 голос
/ 15 февраля 2012

Если вам нужно сопоставить только гиперссылки в элементах <a>, вы можете воспользоваться заключенными в кавычки или двойными кавычками для разграничения вашего URL.

Regex regex = new Regex(@"(?<=href=('|""))https?://.*?(?=\1)");

Это соответствует любому тексту в атрибуте href='…' или href="…", который начинается с http:// или https://.

0 голосов
/ 15 февраля 2012

Попробуйте https?://[^'\"]+

Это должно работать, поскольку ссылки обычно заключаются в кавычки

[править] или даже лучше, просто сопоставляйте только действительные символы. [abc]+ будет соответствовать одному или нескольким символам в скобках. Посмотрите на этот ответ для списка допустимых символов

0 голосов
/ 15 февраля 2012

Насколько точным / надежным вы хотите быть?Одно из лучших регулярных выражений, которое я нашел на сегодняшний день, соответствует практически всем URL-адресам, которые можно было бы добавить:

_^(?:(?:https?|ftp)://)(?:\S+(?::\S*)?@)?(?:(?!10(?:\.\d{1,3}){3})(?!127(?:\.\d{1,3}){3})(?!169\.254(?:\.\d{1,3}){2})(?!192\.168(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\x{00a1}-\x{ffff}0-9]+-?)*[a-z\x{00a1}-\x{ffff}0-9]+)(?:\.(?:[a-z\x{00a1}-\x{ffff}0-9]+-?)*[a-z\x{00a1}-\x{ffff}0-9]+)*(?:\.(?:[a-z\x{00a1}-\x{ffff}]{2,})))(?::\d{2,5})?(?:/[^\s]*)?$_iuS

Вы можете увидеть полную таблицу сравнения регулярных выражений проверки URL здесь: http://mathiasbynens.be/demo/url-regex

Обновление

Как упоминал Дуглас, если вы хотите сопоставлять ссылки, а не какой-либо текст, который передается в виде URL-схемы, вы можете посмотреть на теги привязки.Тем не менее, люди могут поместить НИЧЕГО в тег привязки, например: <a href="http://junk,.sdf8(_.jf/.klkjl">Junk Link</a>, поэтому вам все равно нужно будет проверить, имеет ли URL правильную схему.

0 голосов
/ 15 февраля 2012

Это регулярное выражение должно делать то, что вы хотите. Обратите внимание, что это регулярное выражение будет поддерживать HTTPS в дополнение к HTTP

https?://\\w*
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...