Я использую следующий код для экспорта таблицы из куста в hdfs в формате csv / tsv.
INSERT OVERWRITE DIRECTORY '/user/xyz/dem_data/science_data'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
STORED AS TEXTFILE
SELECT *
FROM science_data;
Когда я просматриваю скопированный файл в формате hdf, я вижу много таких символов
??=%??0nother episod?/aAj%?is ?a???$of J horse!de9?amA?se0(
Я не уверен, что происходит не так.Нужно ли иметь какую-то кодировку для этого, чтобы получить чистый текст.Фактические файлы имеют чистый текст.