У нас есть управляемая секционированная таблица в Hive. Каждый раздел содержит данные за дату и содержит 800-900 миллионов строк. Недавно мы заметили, что данные около 200 разделов повреждены. Чтобы это исправить, мы хотим удалить определенные строки из каждого из этих 200 разделов и заново вставить их.
Каков наиболее эффективный и безопасный способ выполнить это?
Мы пытались вставить перезаписываемые разделы без поврежденных строк, но при динамическом c разбиении вылетело из памяти ошибка.