Если вы пытаетесь удалить дубликаты номеров, вам нужно будет создать новую таблицу следующим образом
CREATE TABLE remove_duplicates
(
elements STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '/n';
И вставьте данные из одной таблицы в другую, используя регулярное выражение для удаления дубликатов. Следующее регулярное выражение работает, если ваши числа разделены пробелом, и оно сохраняет первое вхождение (если вы хотите сохранить последнее * reverse
из запроса)
insert overwrite table remove_duplicates
select
regexp_replace
(
rever(elements)
,'(?<=^| )(?<word>.*?) (?=.*(?<= )\\k<word>(?= |$))'
,''
);
from
remove_dup;
Он создаст новый файл (или файлы в зависимости от размера ваших данных и конфигурации улья), удалив дубликаты. Вы можете найти местоположение файла, выполнив команду, чтобы проверить расположение таблицы
describe formatted remove_duplicates;