Самый простой ответ заключается в том, что если вы можете смонтировать файловые системы на каждом узле, т. Е. Что к нему можно получить доступ как к локальной файловой системе, то вы можете использовать любую распределенную систему - без какой-либо оптимизации производительности для исходного расположения любого данногофайловый блок.
В тех случаях, когда у вас есть доступ к данным из службы метаданных (что было бы верно для ceph), вы можете ограничить загрузку задач только для машин, на которых хранятся данные.Это не реализовано, но, возможно, будет не слишком сложно со стороны пользователя.Подобное было сделано в прошлом для hdfs, но мы обнаружили, что оптимизация не оправдывает дополнительную сложность кода.