FastUrlFilter не применяется для нескольких доменов - PullRequest
0 голосов
/ 17 ноября 2018

Работал на Storm Crawler 1.11 и Elastic Search 6.5.x и пытался применить fastfilterfilter . Первый фильтр работает нормально, а остальные фильтры сканируют только родительский URL. Что-то не хватает в моей конфигурации или какие-либо изменения, которые мне нужно внести, чтобы сканировать все пять URL-адресов.

Мое семя Url

https://www.abce.com/ghi/   seed=ghi
https://www.abce.com/jkl/   seed=jkl
https://www.abce.com/mno/   seed=mno
https://mnop.edu/   seed=mnop
https://jqkl.edu/   seed=jqkl

fasturlfilter.json

[  
   {  
      "scope":"domain:abce.com",
      "patterns":[  
         "AllowPath /ghi/",
         "AllowPath /jkl/",
         "AllowPath /mno/",
         "DenyPath .+"
      ]
   },
   {  
      "scope":"domain:mnop.edu",
      "patterns":[  
      "AllowPath /",
         "DenyPath .+"
      ]
   },
      {  
      "scope":"domain:jqkl.edu",
      "patterns":[ 
      "AllowPath /",
         "DenyPath .+"
      ]
   }

]

1 Ответ

0 голосов
/ 19 ноября 2018

Я написал модульный тест с URL-адресами и правилами выше и не могу найти никаких проблем. Пожалуйста, проверьте, что нет никаких других фильтров, препятствующих добавлению исходящих ссылок.

...