У меня есть куча данных (на S3), которые я копирую в локальную HDFS (на Amazon EMR).Сейчас я делаю это, используя org.apache.hadoop.fs.FileUtil.copy
, но не ясно, распространяет ли это копию файла среди исполнителей.Конечно, на сервере Spark History ничего не отображается.
Hadoop DistCp
похоже на это (обратите внимание, я на S3, так что на самом деле он должен быть s3-dist-cp
, который построен поверх dist-cp
) за исключением того, что это инструмент командной строки.Я ищу способ вызвать это из скрипта Scala (он же Java).
Любые идеи / выводы?