Spark структурированные потоковые мойки - PullRequest
0 голосов
/ 08 июля 2019

Мы запускаем процесс структурированной потоковой передачи с помощью spark 2.4.2, который считывает данные из kafka и записывает данные как есть в файлы s3.мы также используем Hive metastore для управления каталогом искр.мы заметили, что при записи в файлы ORC поток использует гораздо больше памяти, чем при записи в файлы паркета.Другое дело, что задержка потока намного выше с ORC против паркета.кто-нибудь может объяснить разницу?нам не хватает какой-либо конфигурации, чтобы заставить ORC работать намного лучше с потоковой структурой с искрой?

...