Question

Какую стратегию дедупликации лучше всего использовать с искрой?

У меня есть источник Kafka, который непрерывно снабжается структурированной информацией (скажем, JSON) от различных производителей непрерывно.
У меня есть искровой кластер HDInsight, который может в реальном времени собирать сообщения для этого источника Kafka, обрабатывать их и помещать в целевой источник Kafka в режиме реального времени.

Мой пример использования требует, чтобы информация, полученная из источника, имела дубликаты, которые необходимо устранить. Дубликаты должны быть проверены, скажем, за последние 24 часа.

Моя попытка:

Я пытался использовать метод .dropduplicate в spark вместе с водяными знаками, но я думаю, что это не Лучшее, что можно сделать, поскольку в моем случае данные для окна за один день могут превышать 50 ГБ.
Я также искал реализацию фильтра Блума, которую можно использовать со свечой, но не смог найти хорошего.

Мой вопрос:

Каковы возможные подходы к устранению дублирования в целом для крупномасштабного применения искровой потоковой передачи .?
Какие из этих функций можно использовать вместе с кластерами HDInsight на Azure?
Каковы возможности отказоустойчивости в таких службах?

Лучшая стратегия дедупликации для использования с искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Лучшая стратегия дедупликации для использования с искрой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы