Question

Это простой вопрос, но я просто не понимаю. Я хочу обнаружить URL в строке и заменить его на сокращенный.

Я нашел это выражение в stackoverflow, но результат просто http

Pattern p = Pattern.compile("\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]",Pattern.CASE_INSENSITIVE);
        Matcher m = p.matcher(str);
        boolean result = m.find();
        while (result) {
            for (int i = 1; i <= m.groupCount(); i++) {
                String url=m.group(i);
                str = str.replace(url, shorten(url));
            }
            result = m.find();
        }
        return html;

Есть идея получше?

WhiteFang34 · Answer 1 · 19 апреля 2011

Позвольте мне пойти дальше и предсказать это, сказав, что я не большой сторонник регулярных выражений для сложных случаев. Попытка написать идеальное выражение для чего-то подобного очень трудна. Тем не менее, , у меня действительно есть один для обнаружения URL-адресов, и он подкреплен проходным классом юнит-тестов в 350 строк. Кто-то начал с простого регулярного выражения, и за эти годы мы увеличили количество выражений и тестовых случаев, чтобы справиться с найденными проблемами. Это определенно не тривиально:

// Pattern for recognizing a URL, based off RFC 3986
private static final Pattern urlPattern = Pattern.compile(
        "(?:^|[\\W])((ht|f)tp(s?):\\/\\/|www\\.)"
                + "(([\\w\\-]+\\.){1,}?([\\w\\-.~]+\\/?)*"
                + "[\\p{Alnum}.,%_=?&#\\-+()\\[\\]\\*$~@!:/{};']*)",
        Pattern.CASE_INSENSITIVE | Pattern.MULTILINE | Pattern.DOTALL);

Вот пример его использования:

Matcher matcher = urlPattern.matcher("foo bar http://example.com baz");
while (matcher.find()) {
    int matchStart = matcher.start(1);
    int matchEnd = matcher.end();
    // now you have the offsets of a URL match
}

BullyWiiPlaza · Answer 2 · 02 февраля 2015

/**
 * Returns a list with all links contained in the input
 */
public static List<String> extractUrls(String text)
{
    List<String> containedUrls = new ArrayList<String>();
    String urlRegex = "((https?|ftp|gopher|telnet|file):((//)|(\\\\))+[\\w\\d:#@%/;$()~_?\\+-=\\\\\\.&]*)";
    Pattern pattern = Pattern.compile(urlRegex, Pattern.CASE_INSENSITIVE);
    Matcher urlMatcher = pattern.matcher(text);

    while (urlMatcher.find())
    {
        containedUrls.add(text.substring(urlMatcher.start(0),
                urlMatcher.end(0)));
    }

    return containedUrls;
}

Пример:

List<String> extractedUrls = extractUrls("Welcome to https://stackoverflow.com/ and here is another link http://www.google.com/ \n which is a great search engine");

for (String url : extractedUrls)
{
    System.out.println(url);
}

Печать:

https://stackoverflow.com/
http://www.google.com/

M'vy · Answer 3 · 19 апреля 2011

m.group (1) дает вам первую подходящую группу, то есть первую захватывающую скобку. Вот это (https?|ftp|file)

Вы должны попытаться выяснить, есть ли что-то в m.group (0), или заключить весь шаблон в круглые скобки и снова использовать m.group (1).

Вам нужно повторить функцию поиска, чтобы соответствовать следующей, и использовать новый массив группы.

stema · Answer 4 · 19 апреля 2011

Обнаружение URL-адресов не является легкой задачей. Если вам достаточно получить строку, начинающуюся с https? | Ftp | file, тогда все будет в порядке. Ваша проблема здесь в том, что у вас есть группа захвата, (), и это только первая часть http ...

Я бы сделал эту часть не захватывающей группой, используя (? :) и поставил бы вокруг нее скобки.

"\\b((?:https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])"

Billy Moon · Answer 5 · 19 апреля 2011

С некоторыми дополнительными скобками вокруг всего этого (кроме границы слова в начале) оно должно соответствовать всему доменному имени:

"\\b((https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|])"

Я не думаю, что регулярное выражение соответствует всему URL.

lemmy njaria · Answer 6 · 31 января 2019

Этот небольшой фрагмент кода / функция будет эффективно извлекать строки URL из строки в Java. Я нашел здесь основное регулярное выражение и использовал его в функции Java.

Я немного расширил базовое регулярное выражение в части «| www [.]», Чтобы ловить ссылки, не начинающиеся с «http://”

Хватит разговоров (это дешево), вот код:

//Pull all links from the body for easy retrieval
private ArrayList pullLinks(String text) {
ArrayList links = new ArrayList();

String regex = "\\(?\\b(http://|www[.])[-A-Za-z0-9+&amp;@#/%?=~_()|!:,.;]*[-A-Za-z0-9+&amp;@#/%=~_()|]";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(text);
while(m.find()) {
String urlStr = m.group();
if (urlStr.startsWith("(") &amp;&amp; urlStr.endsWith(")"))
{
urlStr = urlStr.substring(1, urlStr.length() - 1);
}
links.add(urlStr);
}
return links;
}

Обнаружить и извлечь URL из строки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обнаружить и извлечь URL из строки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов