Я сделал тест с distCp
, но я понимаю, что он служит только для копирования между кластерами hdfs.В настоящее время у меня есть Java-программа, которую я копирую, используя copyFromLocalFile()
, но даже используя потоки, я не могу улучшить производительность, я понимаю, что операция является последовательной.Многопоточная программа имеет ту же производительность, что и набор потоков с методом copyFromLocalFile()
и FSDataOutputStream
.
Есть ли способ параллельного копирования файлов с удаленного сервера в кластер hdfs?