Лучшая стратегия дедупликации для использования с искрой - PullRequest
0 голосов
/ 22 апреля 2020

Какую стратегию дедупликации лучше всего использовать с искрой?

  • У меня есть источник Kafka, который непрерывно снабжается структурированной информацией (скажем, JSON) от различных производителей непрерывно.
  • У меня есть искровой кластер HDInsight, который может в реальном времени собирать сообщения для этого источника Kafka, обрабатывать их и помещать в целевой источник Kafka в режиме реального времени.

Мой пример использования требует, чтобы информация, полученная из источника, имела дубликаты, которые необходимо устранить. Дубликаты должны быть проверены, скажем, за последние 24 часа.

Моя попытка:

  1. Я пытался использовать метод .dropduplicate в spark вместе с водяными знаками, но я думаю, что это не Лучшее, что можно сделать, поскольку в моем случае данные для окна за один день могут превышать 50 ГБ.
  2. Я также искал реализацию фильтра Блума, которую можно использовать со свечой, но не смог найти хорошего.

Мой вопрос:

  1. Каковы возможные подходы к устранению дублирования в целом для крупномасштабного применения искровой потоковой передачи .?

  2. Какие из этих функций можно использовать вместе с кластерами HDInsight на Azure?

  3. Каковы возможности отказоустойчивости в таких службах?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...