Youtube полный Java Regex - PullRequest
       1

Youtube полный Java Regex

11 голосов
/ 25 октября 2011

Мне нужно проанализировать несколько страниц, чтобы получить все их идентификаторы Youtube.

Я нашел много регулярных выражений в Интернете, но: Java не полны (они либо дают мне мусор в дополнение к идентификаторам, либо пропускают некоторые идентификаторы).

Тот, который мне показался завершенным, размещен здесь . Но это написано на JavaScript и PHP. К сожалению, я не смог перевести их на JAVA.

Может кто-нибудь помочь мне переписать это регулярное выражение PHP или следующий JavaScript на Java?

'~
    https?://         # Required scheme. Either http or https.
    (?:[0-9A-Z-]+\.)? # Optional subdomain.
    (?:               # Group host alternatives.
      youtu\.be/      # Either youtu.be,
    | youtube\.com    # or youtube.com followed by
      \S*             # Allow anything up to VIDEO_ID,
      [^\w\-\s]       # but char before ID is non-ID char.
    )                 # End host alternatives.
    ([\w\-]{11})      # $1: VIDEO_ID is exactly 11 chars.
    (?=[^\w\-]|$)     # Assert next char is non-ID or EOS.
    (?!               # Assert URL is not pre-linked.
      [?=&+%\w]*      # Allow URL (query) remainder.
      (?:             # Group pre-linked alternatives.
        [\'"][^<>]*>  # Either inside a start tag,
      | </a>          # or inside <a> element text contents.
      )               # End recognized pre-linked alts.
    )                 # End negative lookahead assertion.
    [?=&+%\w]*        # Consume any URL (query) remainder.
    ~ix'
/https?:\/\/(?:[0-9A-Z-]+\.)?(?:youtu\.be\/|youtube\.com\S*[^\w\-\s])([\w\-]{11})(?=[^\w\-]|$)(?![?=&+%\w]*(?:['"][^<>]*>|<\/a>))[?=&+%\w]*/ig;

Ответы [ 2 ]

21 голосов
/ 25 октября 2011

Прежде всего вам нужно вставить и дополнительный обратный слеш \ перед каждым обратным слешем в старом регулярном выражении, иначе java думает, что вы экранируете некоторые другие специальные символы в строке, чего вы не делаете.

https?:\\/\\/(?:[0-9A-Z-]+\\.)?(?:youtu\\.be\\/|youtube\\.com\\S*[^\\w\\-\\s])([\\w\\-]{11})(?=[^\\w\\-]|$)(?![?=&+%\\w]*(?:['\"][^<>]*>|<\\/a>))[?=&+%\\w]*

Далее, когда вы компилируете свой шаблон, вам нужно добавить флаг CASE_INSENSITIVE. Вот пример:

String pattern = "https?:\\/\\/(?:[0-9A-Z-]+\\.)?(?:youtu\\.be\\/|youtube\\.com\\S*[^\\w\\-\\s])([\\w\\-]{11})(?=[^\\w\\-]|$)(?![?=&+%\\w]*(?:['\"][^<>]*>|<\\/a>))[?=&+%\\w]*";

Pattern compiledPattern = Pattern.compile(pattern, Pattern.CASE_INSENSITIVE);
Matcher matcher = compiledPattern.matcher(link);
while(matcher.find()) {
    System.out.println(matcher.group());
}
3 голосов
/ 17 июля 2013

Маркус выше имеет хорошее регулярное выражение, но я обнаружил, что он не распознает ссылки на YouTube, в которых есть "www", но не "http (s)", например, www.youtube ....

У меня есть обновление:

^(?:https?:\\/\\/)?(?:[0-9A-Z-]+\\.)?(?:youtu\\.be\\/|youtube\\.com\\S*[^\\w\\-\\s])([\\w\\-]{11})(?=[^\\w\\-]|$)(?![?=&+%\\w]*(?:['\"][^<>]*>|<\\/a>))[?=&+%\\w]*

Это то же самое, за исключением начала

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...