HadoopFS (HDFS) в качестве распределительного хранилища файлов - PullRequest
5 голосов
/ 26 мая 2011

Я рассматриваю использование HDFS в качестве системы хранения файлов с горизонтальным масштабированием для нашего клиентского видеохостинга. Моя главная проблема в том, что HDFS не была разработана для этих нужд, это скорее «система с открытым исходным кодом, используемая в настоящее время в ситуациях, когда необходимо обрабатывать огромные объемы данных». Мы не хотим обрабатывать данные, просто сохраняем их, создаем на основе HDFS что-то вроде небольшого внутреннего аналога Amazon S3.

Вероятно, важным моментом является то, что размер хранимого файла будет вполне мерзавцем от 100 МБ до 10 ГБ.

Кто-нибудь использовал HDFS в таких целях?

Ответы [ 3 ]

1 голос
/ 15 июня 2011

Если вы используете эквивалент S3, то он уже должен предоставлять распределенную, монтируемую файловую систему no? Возможно, вы можете проверить OpenStack на http://openstack.org/projects/storage/.

0 голосов
/ 27 января 2014

Вы можете рассмотреть MongoDB для этого. У них есть GridFS, которая позволит вам использовать его в качестве хранилища. Затем вы можете масштабировать хранилище по горизонтали через сегменты и обеспечивать отказоустойчивость при репликации.

0 голосов
/ 26 мая 2011

Основным недостатком будет отсутствие семантики POSIX.Вы не можете смонтировать диск, и вам нужны специальные API для чтения и записи с него. Java API является основным.Есть проект под названием libhdfs , который делает C API поверх JNI, но я никогда не использовал его. Thriftfs - еще один вариант.

Я также не уверен в производительности чтения по сравнению с другими альтернативами.Может быть, кто-то еще знает.Вы проверяли другие распределенные файловые системы , такие как Lustre ?

...