PostgreSQL и S3QL для хранения / доступа к большому количеству данных - PullRequest
4 голосов
/ 14 декабря 2011

В настоящее время мы используем Postgres 9 на Amazon EC2 и очень довольны производительностью.Теперь мы смотрим на добавление ~ 2 ТБ данных в Postgres, что больше, чем может вместить наш маленький экземпляр EC2.

Я обнаружил S3QL и планирую использовать его вместе с перемещениемКаталог данных Postgres в хранилище S3.У кого-нибудь был опыт с этим?В основном меня интересует производительность (частые чтения, менее частые записи).Любой совет приветствуется, спасибо.

1 Ответ

1 голос
/ 24 декабря 2011

Мой совет - не делай этого.Я ничего не знаю о контексте вашей проблемы, но думаю, что решение не должно включать массовую обработку данных через PostgreSQL.Единственная причина, по которой системы обработки сетки были изобретены, заключалась в том, чтобы решить проблему анализа больших массивов данных.Я думаю, вам следует подумать о создании системы, которая следует стандартным методам BI для извлечения данных измерений.Затем возьмите эти нормализованные данные и, если они все еще довольно большие, загрузите их в Hadoop / Pig.Сделай там свой анализ и агрегацию.Скопируйте полученные совокупные данные в файл и загрузите , что , в базу данных PG вместе с измерениями.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...