Обновить имя поля хоста с помощью начального URL - PullRequest
0 голосов
/ 07 ноября 2018

Я работаю над Storm Crawler 1.10 и ES 6.4.2. Я вставил пару URL-адресов в файл seed, и я хочу отфильтровать результаты по имени хоста. Есть ли какой-нибудь способ, которым я могу сказать сканеру сохранить URL-адрес семени в поле хоста.

Например, URL-адреса моих семян: https://abce.com/ghi, https://abce.com/jkl, https://abce.com/mno. Необходимо отфильтровать результаты по https://abce.com/ghi. Пробовал с подстановочным знаком поиска фильтры, но результаты не являются точными.

1 Ответ

0 голосов
/ 07 ноября 2018

Поле хоста используется для шардинга и создается автоматически. Просто создайте для него новое поле поиска.

Вы можете добавить собственные метаданные в начальный файл для каждой записи, например, https://abce.com/ghi семя = ги

Вам потребуется указать ключ для передачи метаданных, чтобы исходящие ссылки получили его:

 metadata.transfer:
   - seed

затем настройте индексатор так, чтобы он создавал для него поле

 indexer.md.mapping:
  - seed=seed

Наконец, вы можете уточнить схему ES и сделать это поле ключевым словом

"seed": {
         "type": "keyword",
         "index": "true",
         "store": true
        }
...