Question

Мы запускаем процесс структурированной потоковой передачи с помощью spark 2.4.2, который считывает данные из kafka и записывает данные как есть в файлы s3.мы также используем Hive metastore для управления каталогом искр.мы заметили, что при записи в файлы ORC поток использует гораздо больше памяти, чем при записи в файлы паркета.Другое дело, что задержка потока намного выше с ORC против паркета.кто-нибудь может объяснить разницу?нам не хватает какой-либо конфигурации, чтобы заставить ORC работать намного лучше с потоковой структурой с искрой?

Spark структурированные потоковые мойки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark структурированные потоковые мойки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы