Хранение и обработка большого объема данных - PullRequest
0 голосов
/ 16 января 2012

Добрый день!

У меня 350 ГБ неструктурированных данных с разбивкой по 50-80 столбцам.

Мне нужно хранить эти данные в базе данных NoSQL, выполнять различные операции выбора и сопоставлять / сокращать запросы, отфильтрованные по 40 столбцам.

Я хотел бы использовать mongodb, поэтому у меня есть определенный вопрос: справится ли эта база данных с этой задачей и что мне нужно для реализации ее архитектуры в рамках существующего провайдера hetzner.de?

Ответы [ 2 ]

0 голосов
/ 17 января 2012

mongodb - очень масштабируемая и гибкая база данных, при правильном использовании.Он может хранить столько данных, сколько вам нужно, но суть в том, можете ли вы эффективно запрашивать ваши данные.

комментарии:

  • Вам необходимо убедиться, что у вас есть нужныеиндексы на месте, и что достаточное их количество может поместиться в оперативной памяти.
  • Для достижения этого вам может понадобиться использование шардинга для разделения рабочего набора
  • , текущее отображение карты легко использовать,может перебирать все ваши данные, но это довольно медленно обрабатывать.В следующем mongodb он должен стать быстрее, а также появится новая структура агрегации, дополняющая mapreduce.

Суть в том, что вы не должны принимать mongodb в качестве волшебного магазина, который будет идеальным из коробки., обязательно прочитайте хорошие документы и материалы :)

0 голосов
/ 16 января 2012

Да, большие наборы данных просты.

Возможно, Apache Hadoop также стоит посмотреть.Он предназначен для обработки / анализа больших / больших объемов данных.

...