У меня есть папка в формате hdf, которая содержит 202 файла деталей, которые являются выходными данными задания.Общий размер составляет 195 ГБ.Я хочу объединить все эти файлы в один файл в формате hdf.Есть ли способ сделать это очень быстро.Мы используем облачную платформу Microsoft Azure, и для распространения искры мы используем HDInsight.
Мы опробовали некоторые команды, каждая из которых занимает много времени (4+ часа).Пожалуйста, помогите.
sc.textFile("/Dataproviders/Temp/MDASHistory/KAI/Order/Output2/*").coalesce(1).saveAsTextFile("/Dataproviders/Temp/MDASHistory/KAI/Order/MergedFileSp.out")
hdfs dfs -getmerge /Dataproviders/Temp/MDASHistory/KAI/Order/Output2/* final.dat
org.talend.hadoop.fs.FileUtil.copyMerge(fs,
sourceDirPath_tFileOutputDelimited_1, fs,
targetFilePath_tFileOutputDelimited_1, false, job,
null, headerByteCount_tFileOutputDelimited_1);