Question

структура таблицы как

department  person  date  sales
dep1         alice   0     10
dep1         alice   1     20
dep1         bob     0     20
dep1         bob     1     40
dep1         bob     2     50

sql как

SELECT department, person, date, sum(value) 
AS sales_sofar over(PARTITION BY dim1,dim2 
ORDER BY date)

когда я запускаю ее в spark sql или удаляю оконную функцию и запускаю в кусте, это займет всего 2 минуты,но когда я запускаю весь sql в улье, это занимает больше часа и кажется застрявшим в уменьшении и не имеет прогресса, поэтому я проверяю уменьшение и есть только 1 редуктор, я подумал, может быть, из-за порядка по предложению, поэтому я такжепробовал select sum(value) over w1 window w1 as(distribute by dim1,dim2 sort by index), но это то же самое. Я пробовал такие параметры, как mapreduce.input.fileinputformat.split.maxsize, это немного лучше, но все еще очень медленно. Мой вопрос: почему это так медленно, и почему распространение по cluase не работает, и до сих пор толькоодин редуктор?

порядок ульев в оконной функции слишком медленный

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

порядок ульев в оконной функции слишком медленный

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы