Мне недавно нужно сжать сотни файлов в формате hdf.Теперь я могу использовать GNU параллельно для работы на одном узле с помощью нескольких процессов.Однако мои серверы не позволяют SSH между собой, чтобы сделать его распределенным.Поэтому сейчас я ищу распределенную среду для своей работы.Удобно ли использовать hadoop, spark или flink для сжатия этих файлов на нескольких узлах?Большое спасибо!
Можете ли вы ssh всем хостам с главного сервера?Если это так, получите список файлов на главный сервер, запустите GNU Parallel с главного сервера с каждым из подчиненных серверов, указанных в -S (или --slf).
ssh
-S
--slf