Хорошая распределенная файловая система общего назначения в моем случае? - PullRequest
2 голосов
/ 01 апреля 2012

Я исследовал идею использования распределенной файловой системы вместе с моими выделенными серверами вместо использования Amazon S3, и результаты - не что иное, как огромные головные боли!


<час />

Мой проект имеет следующие характеристики / требования:

  • Пользовательские файлы хранятся на выделенных серверах . Каждый файл хранится на 2 отдельных машинах, расположенных в разных дата-центрах (на расстоянии 150-200 миль друг от друга)

  • Я использую Amazon RDS для размещения связанной базы данных mysql (*). Это довольно компактный (только метаданные / идентификаторы файлов)

  • Файлы / данные составляют около 50 ТБ. Естественно, данные меняются и, безусловно, будут расти со временем


<час />

У меня вопрос : существует ли хорошая универсальная распределенная параллельная отказоустойчивая файловая система , которая имеет следующие характеристики:

  • Стабильно и достаточно быстро (загрузка / загрузка)

  • Довольно прост в настройке и обслуживании

  • Обращайтесь с хранилищем данных так, чтобы я только должен был позаботиться об удалении / добавлении новых серверов, если возникнет такая необходимость (т.е. добавление новых серверов в пул серверов файловой системы путем редактирования простой конфигурации или как то так)

Я читал об OpenStack, GlusterFS, MogileFS, XtreemFS и т. Д. ... но чем больше я читаю, тем больше я запутываюсь!

(*) Да, я понимаю противоречие. С точки зрения затрат имеет смысл размещать базу данных на RDS. Но хранение (до) 50 ТБ пользовательских файлов на Amazon слишком дорого по сравнению с использованием выделенных серверов (при условии, что это достаточно хорошо).

PS. мое приложение еще не запущено, поэтому я готов предложить, если у кого-то есть хорошая идея, которая хорошо подходит для моего случая.


<час />

РЕДАКТИРОВАТЬ Я не пытаюсь сделать клон S3, мне просто нужно использовать существующую инфраструктуру хостинга для создания небольшого облачного решения, мой вопрос - найти Правильно распределенная файловая система для обработки / автоматизации этого.

Ответы [ 3 ]

1 голос
/ 07 июля 2015

Я рекомендую LizardFS и GfarmFS .

ИМХО Ceph вызывает большое разочарование, как и XtreemFS .

1 голос
/ 21 июля 2017

Недавно мы перешли от дорогостоящего решения для хранения к Lizardfs с открытым исходным кодом для нашего решения распределенного хранения.Это довольно просто настроить и масштабировать, как только вы поймете основную концепцию.

Проверьте https://docs.lizardfs.com/introduction.html#architecture для быстрого обзора.Но пока забудьте про shadow master en meta logger.Вам нужно знать, что есть

  1. a master : который регулирует трафик (убедитесь, что у него достаточно процессора)

  2. chunkservers : которые фактически хранят данные.Используйте любой тип готового оборудования с несколькими жесткими дисками.

  3. Клиенты: просто точки монтирования.Таким образом, вы можете получить гигантское крепление 50 ТБ, если хотите.Мастер скажет клиенту, где найти / сохранить файлы.Фактические данные передаются прямо с client-> chunkserver и обратно.

Вы можете добавить столько chunkservers, сколько хотите, мастер автоматически попытается сбалансировать использование хранилища между ними,Добавление хранилища - это вопрос добавления жестких дисков или добавления серверов.Они не обязательно должны быть настоящими машинами с «голым металлом», но это, вероятно, самое дешевое.

В lizardfs есть две удивительные функции, которые позволяют георепликацию.

  1. Цели (см. https://docs.lizardfs.com/adminguide/replication.html#standard-goals): Насколько важны файлы для вас. На уровне файлов / уровне папок вы можете определить, сколько раз файл должен быть реплицирован. Хотите ли вы 2 копии 3? 10? Вы можете определить цель в 2 копии длястарые файлы, которые просто существуют для целей архивирования и определяют цель в 4 копии на SSD-дисках для всех новых файлов.

Эти же цели можно также использовать для георепликации. Вы определяете, что ваши данныедолжно быть сохранено как минимум в двух разных местах с соответствующей маркировкой ваших серверов чанка (например, DC1 и DC2)

Информация о стойке (см. https://docs.lizardfs.com/adminguide/advanced_configuration.html#configuring-rack-awareness-network-topology):, вы в основном определяете диапазоны IP-адресов, чтобы обучить систему, как выглядит ваша сеть. Таким образом, клиенты будут пытаться обслуживать файлы с ближайшего сервера.

Простота в настройке - это то, что продавало мне lizardfs. Я слышал очень хорошие вещи о Ceph, но настройка это другое дело ...

Сначала меня беспокоило то, насколько проверена технологияявляется / был. Так что я потратил немало исследований, чтобы выяснить, кто его использует. Orange Poland (крупный телекоммуникационный провайдер) является одним из пользователей. И Cloudweavers / opennebula фактически построил бизнес вокруг него продажа готовых решений .

1 голос
/ 01 апреля 2012

Не потребуется ли нескольким людям несколько месяцев в году для управления этими серверами?Это будет стоить около $, затем вы сами платите за размещение данных, а затем у вас будет добавленная огромная стоимость, которую создаваемая вами бизнес / система явно не масштабирует?Кроме того, любой вероятный инвестор будет отвергнут сложной внутренней системой хостинга данных.Как вы будете обеспечивать целостность / безопасность наравне с Amazon?Ваши максимальные сбережения в год выглядят как 30 000 долларов или около того.

Вы можете сэкономить деньги, используя дедуплицированную систему хранения, где вы просто храните все уникальные порции данных - также смотрите rsync.Не знаю, насколько избыточны ваши данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...