Обнаружить и извлечь URL из строки? - PullRequest
34 голосов
/ 19 апреля 2011

Это простой вопрос, но я просто не понимаю. Я хочу обнаружить URL в строке и заменить его на сокращенный.

Я нашел это выражение в stackoverflow, но результат просто http

Pattern p = Pattern.compile("\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]",Pattern.CASE_INSENSITIVE);
        Matcher m = p.matcher(str);
        boolean result = m.find();
        while (result) {
            for (int i = 1; i <= m.groupCount(); i++) {
                String url=m.group(i);
                str = str.replace(url, shorten(url));
            }
            result = m.find();
        }
        return html;

Есть идея получше?

Ответы [ 6 ]

83 голосов
/ 19 апреля 2011

Позвольте мне пойти дальше и предсказать это, сказав, что я не большой сторонник регулярных выражений для сложных случаев. Попытка написать идеальное выражение для чего-то подобного очень трудна. Тем не менее, , у меня действительно есть один для обнаружения URL-адресов, и он подкреплен проходным классом юнит-тестов в 350 строк. Кто-то начал с простого регулярного выражения, и за эти годы мы увеличили количество выражений и тестовых случаев, чтобы справиться с найденными проблемами. Это определенно не тривиально:

// Pattern for recognizing a URL, based off RFC 3986
private static final Pattern urlPattern = Pattern.compile(
        "(?:^|[\\W])((ht|f)tp(s?):\\/\\/|www\\.)"
                + "(([\\w\\-]+\\.){1,}?([\\w\\-.~]+\\/?)*"
                + "[\\p{Alnum}.,%_=?&#\\-+()\\[\\]\\*$~@!:/{};']*)",
        Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);

Вот пример его использования:

Matcher matcher = urlPattern.matcher("foo bar http://example.com baz");
while (matcher.find()) {
    int matchStart = matcher.start(1);
    int matchEnd = matcher.end();
    // now you have the offsets of a URL match
}
36 голосов
/ 02 февраля 2015
/**
 * Returns a list with all links contained in the input
 */
public static List<String> extractUrls(String text)
{
    List<String> containedUrls = new ArrayList<String>();
    String urlRegex = "((https?|ftp|gopher|telnet|file):((//)|(\\\\))+[\\w\\d:#@%/;$()~_?\\+-=\\\\\\.&]*)";
    Pattern pattern = Pattern.compile(urlRegex, Pattern.CASE_INSENSITIVE);
    Matcher urlMatcher = pattern.matcher(text);

    while (urlMatcher.find())
    {
        containedUrls.add(text.substring(urlMatcher.start(0),
                urlMatcher.end(0)));
    }

    return containedUrls;
}

Пример:

List<String> extractedUrls = extractUrls("Welcome to https://stackoverflow.com/ and here is another link http://www.google.com/ \n which is a great search engine");

for (String url : extractedUrls)
{
    System.out.println(url);
}

Печать:

https://stackoverflow.com/
http://www.google.com/
7 голосов
/ 19 апреля 2011

m.group (1) дает вам первую подходящую группу, то есть первую захватывающую скобку. Вот это (https?|ftp|file)

Вы должны попытаться выяснить, есть ли что-то в m.group (0), или заключить весь шаблон в круглые скобки и снова использовать m.group (1).

Вам нужно повторить функцию поиска, чтобы соответствовать следующей, и использовать новый массив группы.

2 голосов
/ 19 апреля 2011

Обнаружение URL-адресов не является легкой задачей. Если вам достаточно получить строку, начинающуюся с https? | Ftp | file, тогда все будет в порядке. Ваша проблема здесь в том, что у вас есть группа захвата, (), и это только первая часть http ...

Я бы сделал эту часть не захватывающей группой, используя (? :) и поставил бы вокруг нее скобки.

"\\b((?:https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])"
2 голосов
/ 19 апреля 2011

С некоторыми дополнительными скобками вокруг всего этого (кроме границы слова в начале) оно должно соответствовать всему доменному имени:

"\\b((https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])"

Я не думаю, что регулярное выражение соответствует всему URL.

0 голосов
/ 31 января 2019

Этот небольшой фрагмент кода / функция будет эффективно извлекать строки URL из строки в Java. Я нашел здесь основное регулярное выражение и использовал его в функции Java.

Я немного расширил базовое регулярное выражение в части «| www [.]», Чтобы ловить ссылки, не начинающиеся с «http://”

Хватит разговоров (это дешево), вот код:

//Pull all links from the body for easy retrieval
private ArrayList pullLinks(String text) {
ArrayList links = new ArrayList();

String regex = "\\(?\\b(http://|www[.])[-A-Za-z0-9+&amp;@#/%?=~_()|!:,.;]*[-A-Za-z0-9+&amp;@#/%=~_()|]";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(text);
while(m.find()) {
String urlStr = m.group();
if (urlStr.startsWith("(") &amp;&amp; urlStr.endsWith(")"))
{
urlStr = urlStr.substring(1, urlStr.length() - 1);
}
links.add(urlStr);
}
return links;
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...