Мне интересно, что вы испытываете, когда запускаете сложные запросы SQL с несколькими объединениями в паркетных таблицах (от нескольких ГБ до 2 ТБ) в Spark (2.2.1) и Drill (v.1.14).
My Drillкластер выглядит следующим образом:
Direct_Memory: 42 ГБ
количество битов сверления: 10
Память кучи: 8 ГБ
Число ядер на каждом долоте сверления: 8
Я запускаю тесты на эквивалентном кластере Spark (с точки зрения ресурсов).И я обнаружил, что Spark намного быстрее, чем Drill.Также Drill иногда дает сбой во время выполнения с некоторыми более сложными запросами (которые имеют, например, SKEW в данных), тогда как Spark может легко их обработать.