общий формат URL - PullRequest
       11

общий формат URL

0 голосов
/ 23 мая 2018

Я пытаюсь решить эту проблему, извлекая URL из большого текста, и я искал общий формат для URL, пока не нашел это https://en.wikipedia.org/wiki/URL;, и я делаю этот код, но я не знаю, почему этоне нашел URL:

 Pattern p = Pattern.compile("(http|https|ftp|mailto|file|data|irc|rtsp)(\\:)(^\\w{1})([a-zA-Z0-9/%+.-]*$)\\.(com|net|org|jo)\\/(.+)" , Pattern.CASE_INSENSITIVE);
        Matcher m = p.matcher(text);
       if(m.matches())
             System.out.println(text) ;
       else
             System.out.println("no matches");

Любые предложения и спасибо заранее.

1 Ответ

0 голосов
/ 23 мая 2018

Для меня это регулярное выражение сработало:

(http|https|ftp|mailto|file|data|irc|rtsp)(\:)(\/\/)([a-zA-Z0-9\/%+.-\/]*)\.(com|net|org|jo)\/(\w*\/)*(\w+)

Вам нужно будет захватить последнюю группу, если вы хотите, чтобы последняя часть URL здесь была группой 7

Я надеюсь, что этопомог

...