Объедините MySQL, Sphinx и MongDB. Отличная идея? - PullRequest
2 голосов
/ 27 июля 2011

Для нового проекта я ищу объединение MySQL, Sphinx и MongoDB.MySQL для реляционных данных и поиска по числовым значениям, Sphinx для свободного текстового поиска и MongoDB для геоданных.Насколько мои (быстрые) тесты показывают, MongoDB является самым быстрым для гео-запросов, sphinx для свободного текстового поиска и MySQL для поиска реляционных данных.Поэтому для достижения максимальной производительности мне, возможно, придется объединить их в своем проекте.

Однако у этого есть три недостатка.

  1. Три точки отказа, т.е. Sphinx, MySQL иMongoDB может привести к сбою, который остановит мой сайт
  2. Мне нужны данные в трех базах данных, и мне нужно их обновлять (все данные меняются только раз в день, так что это не самая плохая проблема).
  3. Требования к аппаратному обеспечению и, в основном, к ОЗУ идут вверх, так как все базы данных хотят иметь большую часть ОЗУ, чтобы иметь возможность работать.

Так что вопросы в том, следует ли мне объединить три, оставить один вне(возможно, MongoDB и использовать Sphinx для геоданных) или даже использовать только один (MongoDB или MySQL)?

Чтобы дать представление о данных, реляционные данные составляют приблизительно 6 ГБ, геоданные о 4 ГБ иданные в свободном тексте около 16 ГБ.

1 Ответ

2 голосов
/ 27 июля 2011

Не совсем понял, имеют ли записи / коллекции / документы, содержащиеся в 3 БД, ссылки на внутренние БД. Например, если имена пользователей, вакансии, номера телефонов указаны в Mysql, а адреса пользователей - в Mongo. Я предполагаю, что ответ - Да.

ИМХО иметь 3 разных хранилища не рекомендуется, потому что:

1) (самое важное) Вы не можете агрегировать данные из 2 БД (масштабируемым образом).

Пример: Допустим, вы храните пользовательские данные (имена пользователей) в Mysql и пользовательские гео-координаты в Mongo. Вы не можете запросить фильтры / сортировки по полям, расположенным на обеих БД. Например, вы не можете:

SELECT all users 
WHERE name starts with 'A'
SORT BY distance_from_center

То же самое относится и к сфинксу.

Решение: вы либо ограничиваете данные, доступные в одной БД, либо дублируете / дублируете данные из одной БД в другую.

2) Расходы на обслуживание: 3 сервера для обслуживания, разные стратегии резервного копирования / резервирования, разные стратегии масштабирования; Затраты на разработку: разработчик должен использовать 3 библиотеки запросов, 3 различных способа запроса и т. Д. И т. Д.

3) Проблемы непоследовательности / синхронизации, которые необходимо решать вручную (например, вы хотите вставить данные как в mongo, так и в mysql; допустим, что mongo записал данные, но mysql вызвал исключение ссылочной целостности, так что теперь у вас есть несоответствие между БД)

4) Что касается стоимости HW, единственным потребителем ОЗУ является MongoDB (рекомендуется, чтобы все индексы были в оперативной памяти). Для серверов MySQL и Solr вы можете контролировать потребление памяти.

Что бы я сделал:

  • Если мне не нужны все функции SQL (такие как транзакции, ссылочная целостность, объединения и т. Д.), Я бы пошел с Mongo

  • Если мне нужны эти функции, и я могу жить с более низкой производительностью в гео-операциях, я бы пошел с MySQL

  • Теперь, если мне нужен (я имею в виду, мне действительно нужен) полнотекстовый поиск, и возможностей Mongo / Mysql FTS недостаточно, я бы подключил также сервер FTS, такой как Sphinx, Solr, Elasticsearch и т. Д.

...