Распределенные файловые системы, поддерживаемые Python / Dask - PullRequest
0 голосов
/ 11 мая 2018

Какие распределенные файловые системы поддерживаются Dask? В частности, из каких файловых систем можно прочитать dask.dataframe? Из документации Dask я вижу, что HDFS, безусловно, поддерживается. Поддерживаются ли какие-либо другие распределенные файловые системы, например Ceph и т.д?

Я мог бы найти некоторые соображения по поводу поддержки других файловых систем здесь: https://github.com/dask/distributed/issues/33, но нет окончательного заключения, за исключением того, что HDFS "противнее", чем другие варианты.

Спасибо за помощь!

Ответы [ 2 ]

0 голосов
/ 15 мая 2018

Документация о том, какие удаленные файловые системы в настоящее время поддерживаются Dask, и как поддерживать дополнительные файловые системы, доступна здесь:

0 голосов
/ 13 мая 2018

Самый простой ответ заключается в том, что если вы можете смонтировать файловые системы на каждом узле, т. Е. Что к нему можно получить доступ как к локальной файловой системе, то вы можете использовать любую распределенную систему - без какой-либо оптимизации производительности для исходного расположения любого данногофайловый блок.

В тех случаях, когда у вас есть доступ к данным из службы метаданных (что было бы верно для ceph), вы можете ограничить загрузку задач только для машин, на которых хранятся данные.Это не реализовано, но, возможно, будет не слишком сложно со стороны пользователя.Подобное было сделано в прошлом для hdfs, но мы обнаружили, что оптимизация не оправдывает дополнительную сложность кода.

...