Мы разрабатываем потоковое приложение, используя Kafka, Spark Structured Streaming, Hive и s3.
Мой менеджер говорит, что используйте s3 instread Hive.Но мой вопрос / беспокойство заключается в том, что s3 находится в облаке AWS, находящемся в сети.
Данные моего приложения передаются из Kafka на уровень искры к работающей бизнес-логике.
Предполагаемые промежуточные данныеписать и читать из Hive.
Если я размещу это на s3, с какими проблемами мне придется столкнуться или столкнуться?
Как бороться с задержкой?
Есть ли какие-либо передовые отраслевые стандарты, которым я должен следовать?
Пожалуйста, поделитесь подробностями или ссылками, если вы столкнетесь ...