Я хотел бы знать, как заставить Nutch сканировать не только указанный мной домен, но и путь dir внутри указанного мной домена.Я знаю, что вы можете настроить эту информацию на regex-urlfilter.txt
Это должно сканировать только нужный вам домен / путь:
+.*www\.domain\.com/yourpath/.* #skip everything else -.*