Как я могу Regex URL-адреса веб-сайтов для apache Nutch? - PullRequest
0 голосов
/ 26 февраля 2020

Я пытаюсь настроить apache Nutch для сканирования только веб-сайтов с указанным доменом, используя Regex. У меня нет большого опыта работы с Regex, и мне трудно решить, как сделать мой домен в Regex. Домен https://www.health.gov.au/, и я хотел бы, чтобы любая веб-страница с этим доменом, а затем все остальное было принято Regex. спасибо за ваше время

РЕДАКТИРОВАТЬ, например, я бы хотел, чтобы https://www.health.gov.au/health-topics был принят Regex

1 Ответ

1 голос
/ 26 февраля 2020

Вы можете использовать (https://www.health.gov.au/.*).

Это будет соответствовать всем символам после https://www.health.gov.au/

RegexDemo

...