Я работаю над написанием большой таблицы (примерно 1,2b строк) в партике с разделами, я использую штат (например, штат США) в качестве ключа разделения. Проблема в том, что существует большое количество нулевых значений состояния. Эта таблица часто запрашивается по состоянию, поэтому наличие большого раздела с нулевыми состояниями не является проблемой, но у меня возникают проблемы с более эффективной генерацией таблицы.
Я пытался создать таблицу с ненулевыми состояниями, затем вставить нулевое значение, но из того, что я могу сказать, все нулевые значения все еще просто помещаются в один большой раздел и, следовательно, отправляются одному работнику.
Было бы замечательно, если бы был способ вставить в определенный раздел. Как и в моем примере, запишите ненулевые состояния, затем вставьте оставшиеся записи в state = null или hive_default_partition таким образом, чтобы все равно распараллеливаться в кластере.