Разница в производительности Impala IO между набором данных большого размера и набором данных малого размера - PullRequest
0 голосов
/ 18 сентября 2018

У меня один и тот же запрос для набора данных разного размера, скажем, для набора данных 3T и набора данных 10T. Разница в запросе для этих двух наборов данных заключается в том, что объем дискового пространства на маленьких данных намного меньше, чем на большом наборе данных (в среднем 20 МБ / с на небольшом наборе данных, в среднем на 80 МБ / с на большом наборе данных). кто-нибудь сталкивался с этим явлением?

...