Spark структурированный поток и данные в S3 Bucket - PullRequest
1 голос
/ 05 июля 2019

Мы разрабатываем потоковое приложение, используя Kafka, Spark Structured Streaming, Hive и s3.

Мой менеджер говорит, что используйте s3 instread Hive.Но мой вопрос / беспокойство заключается в том, что s3 находится в облаке AWS, находящемся в сети.

Данные моего приложения передаются из Kafka на уровень искры к работающей бизнес-логике.

Предполагаемые промежуточные данныеписать и читать из Hive.

Если я размещу это на s3, с какими проблемами мне придется столкнуться или столкнуться?

  1. Как бороться с задержкой?

  2. Есть ли какие-либо передовые отраслевые стандарты, которым я должен следовать?

Пожалуйста, поделитесь подробностями или ссылками, если вы столкнетесь ...

...