Терабайтная масштабная база данных в Greenplum - PullRequest
0 голосов
/ 12 марта 2020

В настоящее время я использую greenplum для небольшого масштаба данных, например 1 ГБ, для его проверки.

Так как greenplum называется «петабайтной шкалой», мне было интересно, стоит ли использовать объем данных, например, один или десять терабайт, для обработки MPP вместо обычной базы данных PostgreSQL. Все мои сетевые интерфейсы имеют скорость 10 Мбит / с для подчиненных и ведущих устройств.

Рекомендации не включают эти соображения. Проблема в том, что наличие «маленькой базы данных» будет иметь плохой результат из-за сетевой обработки. Вы уже внедрили базу данных с таким масштабом?

1 Ответ

1 голос
/ 12 марта 2020

Рабочие нагрузки для PostgreSQL и Greenplum различны. PostgreSQL отлично подходит для OLTP, запросов с поиском по индексу, ссылочной целостности и т. Д. c. Обычно вы также знаете шаблоны запросов в базе данных OLTP. Конечно, он может удовлетворить некоторые потребности в хранилищах данных или аналитических данных, но он масштабируется за счет покупки более крупной машины с большим объемом оперативной памяти и большим количеством ядер с более быстрыми дисками.

Greenplum, с другой стороны, предназначен для хранилищ данных и аналитики. Вы проектируете базу данных, не зная, как пользователи будут запрашивать данные. Это означает последовательное чтение, отсутствие индексов, полное сканирование таблицы и т. Д. c. Он может выполнять некоторую работу OLTP, но не предназначен для этого. Вы масштабируете Greenplum, добавляя больше узлов в ваш кластер. Это увеличивает пропускную способность процессора, оперативной памяти и дисков.

Какой у вас вариант использования? Это самый важный фактор в выборе Greenplum против PostgreSQL.

...