Предположим, у меня сегодня несколько клиентов, поэтому я храню их информацию, такую как customer_id, customer_name, customer_emailid et c. Если мой клиент уходит, и он хочет, чтобы его личная информация была удалена из моих hdfs.
Итак, у меня есть два подхода для достижения того же.
Подход 1:
1.Создать внутреннюю таблицу поверх HDFS
2.Создать внешнюю таблицу из первой таблицы, используя логи фильтра c
3.При создании 2-й таблицы применяются udfs по заданным значениям c столбцы для дополнительной фильтрации столбцов
Подход 2:
Spark => Чтение, фильтрация, запись
Есть ли другое решение?