структура таблицы как
department person date sales
dep1 alice 0 10
dep1 alice 1 20
dep1 bob 0 20
dep1 bob 1 40
dep1 bob 2 50
sql как
SELECT department, person, date, sum(value)
AS sales_sofar over(PARTITION BY dim1,dim2
ORDER BY date)
когда я запускаю ее в spark sql или удаляю оконную функцию и запускаю в кусте, это займет всего 2 минуты,но когда я запускаю весь sql в улье, это занимает больше часа и кажется застрявшим в уменьшении и не имеет прогресса, поэтому я проверяю уменьшение и есть только 1 редуктор, я подумал, может быть, из-за порядка по предложению, поэтому я такжепробовал select sum(value) over w1 window w1 as(distribute by dim1,dim2 sort by index)
, но это то же самое. Я пробовал такие параметры, как mapreduce.input.fileinputformat.split.maxsize
, это немного лучше, но все еще очень медленно. Мой вопрос: почему это так медленно, и почему распространение по cluase не работает, и до сих пор толькоодин редуктор?