Улей перекошенный раздел данных с огромным размером - PullRequest
0 голосов
/ 17 апреля 2019

Я работаю над огромным набором данных, мне нужно разделить набор данных по странам, используя куст для хранения и обработки, но данные для одной страны составляют около 70% набора данных, поэтому размер раздела этой страны очень огромный по сравнению с разделом другой страны. Какой самый оптимальный способ обработки этого искаженного набора данных с использованием Hive?

...