Hive разбитых и неразделенных таблиц время выполнения и время процессора - PullRequest
0 голосов
/ 27 ноября 2018

У меня в настоящее время есть таблица ниже

create table flights(Year int, Month int, dayOfMonth int, dayOfWeek 
int, depTime int, CRSDepTime int, arrTime int, CRSArrTime int, 
uniqueCarrier string, flightNum int, tailNum int, actualElapsedTime 
int, CRSElapsedTime int, airTime int, arrDelay int, depDelay int, 
origin string, dest string, distance int, taxiIn int, taxiOut int, 
cancelled int, cancellationCode string, diverted int, carrierDelay 
int, weatherDelay int, NASDelay int, securityDelay int, 
lateAircraftDelay int) row format delimited fields terminated by ',';

, и я разделил эту таблицу, используя столбец месяца, и сравнил время процессора и общее время, затраченное.Я вижу, что процессорное время резко сократилось на многораздельной таблице по сравнению с неразделенной таблицей.Тем не менее, за общее время, оба одинаковы.

примечание: я пользуюсь базой данных, которая имеет 22 года всех рейсов в прошлом.поэтому объем данных огромен.

Я хочу знать, почему время ЦП уменьшилось, а общее время осталось прежним.

...