Модель данных Hive: в таблице больше данных в одном разделе - PullRequest
0 голосов
/ 06 января 2020

Моя таблица улья выглядит следующим образом:

create external table abc (
  id string,
  product strring,
  .
  .
  .
  city string
) partitioned by 
(state string) 
location 'path/to/dataFile/in/HDFS';

Таблица содержит данные по всей территории США, и, как вы можете видеть, она разбита по штатам. Значения выборки в столбце состояния: NJ, CA, AZ et c.

Проблема в том, что большая часть бизнеса компании находится в штате Калифорния. Итак, эта таблица содержит 80% данных в состоянии раздела = CA. Мне нужно повторно смоделировать это как запрос состояния = CA тратит время, поскольку у него большие данные.

Я думаю о создании группы столбцов города, но хотел бы посмотреть на этом форуме. Пожалуйста, посоветуйте всем, у кого есть хорошая идея переделать его.

...