Удаление строк из разделов управляемой таблицы Hive - PullRequest
0 голосов
/ 01 мая 2020

У нас есть управляемая секционированная таблица в Hive. Каждый раздел содержит данные за дату и содержит 800-900 миллионов строк. Недавно мы заметили, что данные около 200 разделов повреждены. Чтобы это исправить, мы хотим удалить определенные строки из каждого из этих 200 разделов и заново вставить их.

Каков наиболее эффективный и безопасный способ выполнить это?

Мы пытались вставить перезаписываемые разделы без поврежденных строк, но при динамическом c разбиении вылетело из памяти ошибка.

...