Это действительно зависит от ваших наборов данных.Правило номер один для разработки NoSQL - сначала определить сценарии запросов.Как только вы по-настоящему поймете, как вы хотите запрашивать данные, вы можете посмотреть на различные решения NoSQL.Единицей распределения по умолчанию является ключ.Поэтому вы должны помнить, что вы должны иметь возможность эффективно разделять ваши данные между вашими узловыми машинами, в противном случае вы получите горизонтально масштабируемую систему со всей работой, выполняемой на одном узле (хотя и лучшие запросы в зависимости от случая).
Вам также необходимо вспомнить теорему CAP: большинство баз данных NoSQL в конечном итоге становятся согласованными (CP или AP), в то время как традиционными реляционными СУБД являются CA.Это повлияет на то, как вы обрабатываете данные и создаете определенные вещи, например, генерация ключей может оказаться хитрой.
Также помните, что в некоторых системах, таких как HBase, нет концепции индексирования.Все ваши индексы должны быть построены с помощью логики вашего приложения, и любые обновления и удаления должны будут управляться как таковые.С Mongo вы можете создавать индексы на полях и запрашивать их относительно быстро, также есть возможность интегрировать Solr с Mongo.Вам не нужно просто выполнять запрос по идентификатору в Mongo, как в HBase, который является семейством столбцов (он же база данных в стиле Google BigTable), где у вас есть вложенные пары ключ-значение.
Итак, снова речь идет о ваших данных, о том, что вы хотите сохранить, как вы планируете их хранить и, что наиболее важно, как вы хотите получить к ним доступ.Проект Lily выглядит очень многообещающе.В работе, с которой я работаю, мы берем большое количество данных из Интернета и храним их, анализируем, анализируем, анализируем, анализируем, транслируем, обновляем и т. Д. И т. Д. Мы не просто используем одну систему, а многокоторые лучше всего подходят для работы под рукой.Для этого процесса мы используем разные системы на разных этапах, поскольку он дает нам быстрый доступ туда, где он нам нужен, предоставляет возможность потоковой передачи и анализа данных в режиме реального времени и, что важно, отслеживает все по ходу работы (как потеря данных в продуктовой среде).система это большое дело).Я использую Hadoop, HBase, Hive, MongoDB, Solr, MySQL и даже старые добрые текстовые файлы.Помните, что производить систему с использованием этих технологий немного сложнее, чем устанавливать Oracle на сервер, некоторые выпуски не так стабильны, и вам действительно нужно сначала провести тестирование.В конце концов, это действительно зависит от уровня сопротивления бизнеса и критического характера вашей системы.
Еще один путь, который до сих пор никто не упомянул, - это NewSQL, то есть горизонтально масштабируемые СУБД ... Есть несколько таких, как кластер MySQL (я думаю) и VoltDB, которые могут подойти вам.
Опять же, речь идет о понимании ваших данных и моделей доступа. Системы NoSQL также не являются относительными, то есть нереляционными и лучше подходят для нереляционных наборов данных.Если ваши данные по своей природе являются реляционными, и вам нужны некоторые функции SQL-запросов, которые действительно должны выполнять такие вещи, как декартовы продукты (также называемые объединениями), тогда вам лучше придерживаться Oracle и тратить некоторое время на индексацию, сегментирование и настройку производительности.
Мой совет - поэкспериментировать с несколькими разными системами.Посмотрите;
MongoDB - Документ - CP
CouchDB - Документ - AP
Redis - Значение ключа в памяти (не для семейства столбцов) - CP
Cassandra - Семейство столбцов - Доступно и допустимое разбиение (AP)
HBase - Семейство столбцов - Согласованный и устойчивый к разделам (CP)
Hadoop / Hive
VoltDB - Действительно красивый продукт, база данных отношений, котораяраспространяется и может работать для вашего случая (может быть легче двигаться).Похоже, что они также предоставляют корпоративную поддержку, которая может больше подходить для продвинутой среды (т. Е. Дать бизнес-пользователям чувство безопасности).
В любом случае, это мой 2с.Игра с системами - действительно единственный способ узнать, что действительно работает для вашего случая.