Какую стратегию дедупликации лучше всего использовать с искрой?
- У меня есть источник Kafka, который непрерывно снабжается структурированной информацией (скажем, JSON) от различных производителей непрерывно.
- У меня есть искровой кластер HDInsight, который может в реальном времени собирать сообщения для этого источника Kafka, обрабатывать их и помещать в целевой источник Kafka в режиме реального времени.
Мой пример использования требует, чтобы информация, полученная из источника, имела дубликаты, которые необходимо устранить. Дубликаты должны быть проверены, скажем, за последние 24 часа.
Моя попытка:
- Я пытался использовать метод .dropduplicate в spark вместе с водяными знаками, но я думаю, что это не Лучшее, что можно сделать, поскольку в моем случае данные для окна за один день могут превышать 50 ГБ.
- Я также искал реализацию фильтра Блума, которую можно использовать со свечой, но не смог найти хорошего.
Мой вопрос:
Каковы возможные подходы к устранению дублирования в целом для крупномасштабного применения искровой потоковой передачи .?
Какие из этих функций можно использовать вместе с кластерами HDInsight на Azure?
- Каковы возможности отказоустойчивости в таких службах?