Сначала поместите все файлы в Hdfs / (может быть s3) / hive, собрав их через sftp ftp et c ....
, тогда у вас будет единое хранилище hdfs. вы можете применить mapreduce или spark et c для их обработки в соответствии с вашими требованиями.
Никто ничего не может сделать, если у него есть большое количество источников / серверов данных вместо их сбора (так называемого приема данных) с последующей обработкой данных с использованием любых доступных платформ.