RegExp: сопоставить все ссылки, кроме ссылок YouTube с видео - PullRequest
0 голосов
/ 27 ноября 2018

RegExp Я уже построил :

(?(DEFINE)
  # URL
  (?<proto> (https?:)?\/\/)
  (?<port> :[0-9]{2,5})
  (?<tld> (?:com|net|info|biz|us|org))
  (?<path> (\/([a-z0-9+%-]\.?)+)*\/?)
  (?<query> \?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)
  (?<hash> \#[a-z_.-][a-z0-9+$%_.-]*)
  (?<subdomain> ([a-z0-9\-\.]+)\.)

  # Exceptions
 (?<yt_domain> (www\.)?(youtube\.com|youtu\.be)\/)
 (?<yt_hash> ([\w-]{10,12})+)
 (?<yt_video> \g<proto>?\g<yt_domain>+(watch)?(\/embed\/|\?v=)+\g<yt_hash>+)
)

# Capture
((?!\g<yt_video>+.*)
  (\g<proto>?
  \g<subdomain>
  \g<tld>
  \g<port>?
  \g<path>?
  \g<query>?
  \g<hash>?
))

Мне удалось захватить ссылки в любом формате, но по какой-то причине мой негативный взгляд (см. \g<yt_video>) не даетисключить ссылки на видео YouTube из списка матчей.

Строки, которые должны быть частично или полностью сопоставлены:

http: www.google.com/
http // www.google.ru /
http://www.google.com/
: //www.google.com/
www.google.com/
www.google.com:8000
www.google.com/?key= значение
github.io
www.google.com/abc/def/ijk#123
www.google.com/abc/def/ijk?v=123123123
www.google.com/ abc / def / watch? v = 1231231231
https://www.youtube.com/channel/UCgeu2xe0XRscaKyvBt3WgmQ
http://www.google.com/?key=value
http://www.youtube.com/

Однако, он должен пропускать (не совпадают строки), которые содержат идентификатор видео YouTube):

http://www.youtube.com/watch?v=B5Gj78s6H7w&feature=youtu.be
https://www.youtube.com/embed/y19EaW2X7ac
music.youtube.com/embed/y19EaW2X7ac
https://www.youtube.com/watch?v=B5Gj78s6H7w&feature=youtu.be
https://www.youtube.com/watch?feature=youtu.be&v=B5Gj78s6H7w
https://www.youtu.be/B5Gj78s6H7w&feature=youtu.be
https://www.youtu.be/B5Gj78s6H7w

Заранее благодарю за помощь или любой намек, почему отрицательный взгляд не отрицает линх годов.

1 Ответ

0 голосов
/ 28 ноября 2018

После некоторого возни с этим вы диагностируете функцию NOT youtube
, чтобы закомментировать оставшуюся часть и посмотреть, что ей подходит.

То, что вы должны понимать в прогнозных заявлениях, - это все, что они говорят двигателю
, что в текущей позиции не может быть вещь впереди нее.
Всеон продвигает позицию на 1 и пробует снова.
Делает это до тех пор, пока не доберется до позиции, где утверждение проходит.

Поскольку у вас нет якорей, он сопоставляет части строки с чем-то другим.

Итак, вы должны пройти этот отрезок текста, чтобы избежать его части.

Есть несколько способов обойти это, но гораздо проще всего сопоставить его, затем
(*SKIP) (*FAIL) мимо него.
Двигатель на самом деле не соответствует ему, но он выставляет текущийПройдите
и попробуйте снова.

Я избавился (или преобразовал в кластеры) ненужные группы захвата.
Добавил пропуск / сбой, превратил ваш TLD в троичное дерево и отформатировал для
чтения.

Get RegexFormat 8 , который делает это за вас и имеет
встроенный движок для тестирования регулярных выражений.

Обратите внимание, что это (?: [\w-]{10,12} )+ имеет гранулярность 10-12 символов за раз.Где [\w-]{10,} будет соответствовать> 10 символов.Он находится в функции <yt_hash>.И при вызове этого с этим (?&yt_hash)+ квантификатор является избыточным / бесполезным.

Поскольку теперь он успешно пропускает некоторые вызовы к (?&yt_video) .*
, вам придется исследовать части этой функции, чтобыпонять, почему он не соответствует
, и, следовательно, SKIP другие.

Здесь оно сжато

https://regex101.com/r/pOq3Hc/1

/(?i)(?(DEFINE)(?<proto>(?:https?:)?\/\/)(?<port>:[0-9]{2,5})(?<tld>(?:a(?:[cd]|e(?:ro)?|[fgil-oqr]|s(?:ia)?|[tuwxz])|b(?:[abd-h]|iz?|[jl-oq-tvwyz])|c(?:at?|[cdf-ik-n]|o(?:m|op)?|[ru-z])|d[ejkmoz]|e[ceghr-u]|f[i-kmor]|g[abd-il-np-uwy]|h[kmnrtu]|i(?:[delm]|n(?:fo|t)?|[oq-t])|j(?:[em]|o(?:bs)?|p)|k[eg-imnprwyz]|l[a-cikr-vy]|m(?:[ac-hk]|lc?|[mn]|o(?:bi)?|[p-t]|u(?:seum)?|[v-z])|n(?:a(?:me)?|c|et?|[fgilopruz])|o(?:m|rg)|p(?:[ae-hk-n]|ost|ro?|[stwy])|qa|r[eosuw]|s(?:[a-eg-or]|t(?:udio)?|[uvx-z])|t(?:[cd]|el|[f-hj-p]|r(?:avel)?|[tvwz])|u[agkmsyz]|v[aceginu]|w[fs]|y[et]|z[amw]))(?<path>(\/(?:[a-z0-9+%-]\.?)+)*\/?)(?<query>\?[a-z+&$_.-][a-z0-9;:@&%=+\/.-]*)(?<hash>\#[a-z_.-][a-z0-9+$%_.-]*)(?<subdomain>[a-z0-9\-\.]+\.)(?<yt_domain>(?:www\.)?(?:youtube\.com|youtu\.be)\/)(?<yt_hash>(?:[\w-]{10,12})+)(?<yt_video>(?&proto)?(?&yt_domain)+(?:watch)?(?:\/embed\/|\?v=)+(?&yt_hash)+))((?&yt_video).*(*SKIP)(*FAIL)|(?&proto)?(?&subdomain)(?&tld)(?&port)?(?&path)?(?&query)?(?&hash)?)/

И расширено

 (?i)
 (?(DEFINE)
      # URL
      (?<proto>                                          # (1 start)
           (?: https?: )?
           //
      )                                                  # (1 end)
      (?<port> : [0-9]{2,5} )                            # (2)
      (?<tld>                                            # (3 start)
           (?:
                a
                (?:
                     [cd] 
                  |  e
                     (?: ro )?
                  |  [fgil-oqr] 
                  |  s
                     (?: ia )?
                  |  [tuwxz] 
                )
             |  b
                (?: [abd-h] | iz? | [jl-oq-tvwyz] )
             |  c
                (?:
                     at?
                  |  [cdf-ik-n] 
                  |  o
                     (?: m | op )?
                  |  [ru-z] 
                )
             |  d [ejkmoz] 
             |  e [ceghr-u] 
             |  f [i-kmor] 
             |  g [abd-il-np-uwy] 
             |  h [kmnrtu] 
             |  i
                (?:
                     [delm] 
                  |  n
                     (?: fo | t )?
                  |  [oq-t] 
                )
             |  j
                (?:
                     [em] 
                  |  o
                     (?: bs )?
                  |  p
                )
             |  k [eg-imnprwyz] 
             |  l [a-cikr-vy] 
             |  m
                (?:
                     [ac-hk] 
                  |  lc?
                  |  [mn] 
                  |  o
                     (?: bi )?
                  |  [p-t] 
                  |  u
                     (?: seum )?
                  |  [v-z] 
                )
             |  n
                (?:
                     a
                     (?: me )?
                  |  c
                  |  et?
                  |  [fgilopruz] 
                )
             |  o
                (?: m | rg )
             |  p
                (?: [ae-hk-n] | ost | ro? | [stwy] )
             |  qa
             |  r [eosuw] 
             |  s
                (?:
                     [a-eg-or] 
                  |  t
                     (?: udio )?
                  |  [uvx-z] 
                )
             |  t
                (?:
                     [cd] 
                  |  el
                  |  [f-hj-p] 
                  |  r
                     (?: avel )?
                  |  [tvwz] 
                )
             |  u [agkmsyz] 
             |  v [aceginu] 
             |  w [fs] 
             |  y [et] 
             |  z [amw] 
           )

      )                                                  # (3 end)
      (?<path>                                           # (4 start)
           (                                                  # (5 start)
                /
                (?: [a-z0-9+%-] \.? )+
           )*                                                 # (5 end)
           /?
      )                                                  # (4 end)
      (?<query> \? [a-z+&$_.-] [a-z0-9;:@&%=+/.-]* )     # (6)
      (?<hash> \# [a-z_.-] [a-z0-9+$%_.-]* )             # (7)
      (?<subdomain>                                      # (8 start)
           [a-z0-9\-\.]+ 
           \.
      )                                                  # (8 end)

      # Exceptions
      (?<yt_domain>                                      # (9 start)
           (?: www\. )?
           (?: youtube\.com | youtu\.be )
           /
      )                                                  # (9 end)
      (?<yt_hash>                                        # (10 start)
           (?: [\w-]{10,12} )+
      )                                                  # (10 end)
      (?<yt_video>                                       # (11 start)
           (?&proto)? (?&yt_domain)+ 
           (?: watch )?
           (?: /embed/ | \?v= )+
           (?&yt_hash)+ 
      )                                                  # (11 end)
 )

 # Capture
 (                                                  # (12 start)
      (?&yt_video) .* 
      (*SKIP) (*FAIL) 
   |  
      (?&proto)? 
      (?&subdomain) 
      (?&tld) 
      (?&port)? 
      (?&path)? 
      (?&query)? 
      (?&hash)? 
 )                                                  # (12 end)
...