Может ли StormCrawler сканировать файловую систему, а не URL-адреса? - PullRequest
0 голосов
/ 05 февраля 2020

Есть ли способ использовать StormCrawler для индексирования файлов в файловой системе, а не URL-адресов? У нас есть более 5 миллионов файлов, которые необходимо сканировать и индексировать (с ElasticSearch ). Индекс необходимо обновлять ежедневно или чаще. Другие сканеры сканируют полный набор файлов более 50 часов. Это делает циклы обновления слишком медленными. Например, если вам нужно обновлять поисковый индекс ежедневно или чаще, это невозможно сделать с другими сканерами.

1 Ответ

0 голосов
/ 05 февраля 2020

В StormCrawler есть Файловый протокол . Если вы представляете файлы как URI, используя file: // , S C сможет обрабатывать их из коробки.

...