быстрое объединение файлов деталей в apache spark - PullRequest
0 голосов
/ 12 марта 2019

У меня есть папка в формате hdf, которая содержит 202 файла деталей, которые являются выходными данными задания.Общий размер составляет 195 ГБ.Я хочу объединить все эти файлы в один файл в формате hdf.Есть ли способ сделать это очень быстро.Мы используем облачную платформу Microsoft Azure, и для распространения искры мы используем HDInsight.

Мы опробовали некоторые команды, каждая из которых занимает много времени (4+ часа).Пожалуйста, помогите.

sc.textFile("/Dataproviders/Temp/MDASHistory/KAI/Order/Output2/*").coalesce(1).saveAsTextFile("/Dataproviders/Temp/MDASHistory/KAI/Order/MergedFileSp.out") 

hdfs dfs -getmerge /Dataproviders/Temp/MDASHistory/KAI/Order/Output2/* final.dat

org.talend.hadoop.fs.FileUtil.copyMerge(fs,
                        sourceDirPath_tFileOutputDelimited_1, fs,
                        targetFilePath_tFileOutputDelimited_1, false, job,
                        null, headerByteCount_tFileOutputDelimited_1);
...