Моя таблица улья выглядит следующим образом:
create external table abc (
id string,
product strring,
.
.
.
city string
) partitioned by
(state string)
location 'path/to/dataFile/in/HDFS';
Таблица содержит данные по всей территории США, и, как вы можете видеть, она разбита по штатам. Значения выборки в столбце состояния: NJ, CA, AZ et c.
Проблема в том, что большая часть бизнеса компании находится в штате Калифорния. Итак, эта таблица содержит 80% данных в состоянии раздела = CA. Мне нужно повторно смоделировать это как запрос состояния = CA тратит время, поскольку у него большие данные.
Я думаю о создании группы столбцов города, но хотел бы посмотреть на этом форуме. Пожалуйста, посоветуйте всем, у кого есть хорошая идея переделать его.