Что использовать для анализа данных - PullRequest
1 голос
/ 15 февраля 2012

У меня 500 ГБ неструктурированных данных. Я хочу использовать его для создания нескольких представлений об этих данных для легкого и быстрого потребления. Любые новые данные, поступающие в систему, должны быть проиндексированы во всех необходимых им представлениях, а затем где-то сохранены в необработанном формате. Помимо этого, система должна иметь возможность для специальных запросов. Эти запросы могут занять нетривиальное время для выполнения. Я рассматриваю Cassandra + Hadoop + Hive, HBase, Couchbase и Riak в качестве возможных кандидатов для моего варианта использования.

Будет поступать больше данных, и я планирую хранить в системе не более пары ТБ данных в любой момент времени.

Мысли

1 Ответ

4 голосов
/ 16 февраля 2012

Вы оставили много важных деталей в этом вопросе.При выборе хранилища данных важными факторами являются, примерно, следующие:

  • Как мой доступ будет доступен? Вы упомянули об этом, упомянув, что он неструктурирован и что выхотел бы, чтобы у вас было много индексов, но вы пропустили некоторую информацию о прецедентах.При поиске информации вы будете искать полную запись или только по частям по одной?Хранилища документов и значений ключей предоставляют целые записи, в то время как хранилища табличных данных могут извлекать определенные биты информации на строку.
  • Где в спектре, обозначенном ACID спектром , выlay? Вы заботитесь о долгосрочной доступности данных?Если нет, то что-то вроде memcached может предложить ошеломительную производительность.Это, вероятно, будет наиболее полезным, так как большинство современных распределенных хранилищ данных выделяют нишу в этом спектре (или, по крайней мере, позволяют оптимизировать его тем или иным способом).
  • Как вы хотите манипулировать вашими данными? Если парадигма MapReduce ориентирована на ваш набор данных и вычисления, то я, безусловно, рекомендую комбинацию HBase / Cassandra (хотя поддержка Cassandra MapReduce моложе) и Hadoop.

Чем больше информации вы предоставите, тем лучше будет ваша / наша оценка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...