RegEx для извлечения идентификаторов YouTube и временной последовательности - PullRequest
1 голос
/ 25 мая 2019

Я хотел бы извлечь идентификатор видео (строку) и (если доступно) целое число последовательности из URL-адресов Youtube.

Ввод

https://www.youtube.com/watch?v=doXt8abo3IY
https://youtu.be/FIqBQ-CxAfQ
http://www.youtube.com/watch?v=MlOSMl33CNA&t=0m4s

Я пробовал этот шаблон, но он не работает:

^https?://.*(?:youtu.be/|v/|u/\w/|embed/|watch?v=)([^#&?]*).*$

Как мне решить эту проблему?

Ответы [ 2 ]

0 голосов
/ 25 мая 2019

Если мы хотим сопоставить только те случаи, которые перечислены в нашем вопросе, то, вероятно, мы могли бы упростить наше выражение до чего-то похожего на:

(?:.+v=|.+\.be\/)(.+?)($|&.+)

Так как, возможно, мы не хотим проверять URL-адреса, чтоЯ догадываюсь.Однако, если мы хотим добавить больше границ, мы можем это сделать.

Здесь мы объединяем два условия, используя логические ИЛИ, в группу без захвата:

(?:.+v=|.+\.be\/)

Затем мы собираем желаемые идентификаторы с помощью группы захвата:

(.+?)

Наконец, мы добавляем правую границу:

($|&.+)

, и это также будет работать для правой границы (с использованием группы без захвата):

(?:$|&.+)

ЭтоВыражение может быть легко изменить, если появятся какие-либо другие URL-адреса, мы просто добавляем новые границы, используя логические ИЛИ слева и справа от желаемых идентификаторов.

enter image description here

const regex = /(?:.+v=|.+\.be\/)(.+?)($|&.+)/gm;
const str = `https://www.youtube.com/watch?v=doXt8abo3IY
https://youtu.be/FIqBQ-CxAfQ
http://www.youtube.com/watch?v=MlOSMl33CNA&t=0m4s`;
const subst = `$1`;

// The substituted value will be contained in the result variable
const result = str.replace(regex, subst);

console.log('Substitution result: ', result);

DEMO

RegEx

Если это выражение не требуется, его можно изменить или изменить в regex101.com .

Схема RegEx

jex.im визуализирует регулярные выражения:

enter image description here


Если мы хотим захватить переменную t, мы можем расширить наше выражение, возможно, до чего-то похожего на:

(?:.+)(?:\.be\/|v=)(.+?)(?:&|$)(?:t=)?(.+)?

Возможно, будет намного лучше, еслимы разрабатываем индивидуальные выражения для каждой задачи, в противном случае мы можем столкнуться с будущими проблемами.Например, было бы намного лучше, если бы мы могли разработать одно отдельное выражение для .be, одно для v= и одно для t=.

DEMO

const regex = /(?:.+)(?:\.be\/|v=)(.+?)(?:&|$)(?:t=)?(.+)?/gm;
const str = `https://www.youtube.com/watch?v=doXt8abo3IY
https://youtu.be/FIqBQ-CxAfQ
http://www.youtube.com/watch?v=MlOSMl33CNA&t=0m4s`;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}
0 голосов
/ 25 мая 2019

Вы были довольно близко, но не избежали ударов.Хотя это может отличаться в зависимости от языка, я не уверен.В любом случае вот рабочее правило, которое я получил:

^https?:\/\/.*(?:youtu.be\/|v\/|u\/\w\/|embed\/|watch?v=)([^#&?]*).*(?>t=([0-9]+)).*$

См. https://regex101.com/r/9EjjN4/1 для тестирования и возможности экспорта на разные языки

...