Интеграция Storm-Crawler с Cassandra и сборка топологии в Gradle - PullRequest
0 голосов
/ 11 апреля 2020

Я пытался внедрить Storm-Crawler в мой проект, но мне нужно работать с Cassndra и Gradle. Мне весело со стеком Storm-Crawler и ElasticSearch, но в этой ситуации я вынужден использовать эти решения. Я пробовал несколько раз собрать банку с грейдером, но безуспешно. Кто-нибудь строил топологию Storm-Crawler в Gradle? Я настраиваю Apache -Storm для использования Cassandra, но как поместить данные из Strom-Crawler в Cassandra?

1 Ответ

0 голосов
/ 12 апреля 2020

Не могу помочь с Gradle, я боюсь, но для части Cassandra: хотите ли вы хранить содержимое и метаданные документов в нем или использовать его для хранения информации об URL-адресах (как это делается с помощью индекса состояния в ES)? В первом случае реализуйте свой собственный индексатор, расширяющий AbstractIndexerBolt , во втором вам понадобится средство обновления состояния и носик, который немного сложнее.

...