Синтаксис regex-urlfilter с Apache Nutch - PullRequest
0 голосов
/ 02 июня 2018

Я хочу отфильтровать URL-адрес в следующем формате: https://www.abcd.com/def/*, что означает, что после определения def / все в порядке, если домен www.abcd.com и / def / требуется, но после тратыМного времени я все еще не могу понять, как написать правильное регулярное выражение.

1 Ответ

0 голосов
/ 14 июня 2018

Это может работать:

 +^https://www.abcd.com/def/(.*)
#(skip URLs containing certain characters as probable queries, etc.)
 -^https://www.abcd.com/def/[?*!@=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
 -^https://www.abcd.com/def/.*(/[^/]+)/[^/]+\1/[^/]+\1/
#comment "accept everything else"   
#+.
...