Как запустить генерацию данных tpc-ds (dsdgen
), а затем выполнить запросы к этим данным (dsqgen
) в параллельном распределенном режиме.Я использую Spark для настройки пряжи (spark.master yarn
) и храню данные в системе хранения с импульсным буфером.