В настоящее время тестируется кластер, и при использовании "CREATE TABLE AS"
результирующая управляемая таблица заканчивается одним файлом ~ 1,2 ГБ, в то время как базовый файл, из которого создается запрос, содержит много маленьких файлов. Часть SELECT выполняется быстро, но в результате получается 2 редуктора, которые создают один файл, который занимает 75% времени выполнения.
Дополнительное тестирование:
1) Если используется "CREATE EXTERNAL TABLE AS"
, запрос выполняется очень быстро и шаг объединения файлов не выполняется.
2) Кроме того, в версии HDP 3.0.1 слияние не происходит.