Spark работает намного лучше, чем Drill с паркетными столами - PullRequest
0 голосов
/ 23 февраля 2019

Мне интересно, что вы испытываете, когда запускаете сложные запросы SQL с несколькими объединениями в паркетных таблицах (от нескольких ГБ до 2 ТБ) в Spark (2.2.1) и Drill (v.1.14).

My Drillкластер выглядит следующим образом:

Direct_Memory: 42 ГБ

количество битов сверления: 10

Память кучи: 8 ГБ

Число ядер на каждом долоте сверления: 8

Я запускаю тесты на эквивалентном кластере Spark (с точки зрения ресурсов).И я обнаружил, что Spark намного быстрее, чем Drill.Также Drill иногда дает сбой во время выполнения с некоторыми более сложными запросами (которые имеют, например, SKEW в данных), тогда как Spark может легко их обработать.

...