Архитектура для исследования и анализа больших данных - PullRequest
0 голосов
/ 27 июля 2011

Мы планируем построить систему исследования данных для большого количества событий (порядка миллионов).События состоят из времени, координат широты и долготы и некоторых других свойств с ограниченными доменом значениями, такими как type и userId.

Цель состоит в том, чтобы обеспечить визуализацию данных на трех панелях:

  • Карта (события, сгруппированные в маркерах или на тепловой карте)
  • Гистограмма времени (распределение событий по дате)
  • Гистограмма атрибутов (гистограмма атрибутов: тип, пользователи, ...)

Пользователи будут интерактивно анализировать данные путем фильтрации по атрибутам (фасетам), временному интервалу или пространственному диапазону.

Мы думаем о сервере OLAP, но не знаем, так ли этоявляется наиболее подходящим решением.

Какая архитектура / система могла бы справиться с этой операцией на таком большом наборе данных?Есть опыт или предложения по этому поводу?Желательно с компонентами с открытым исходным кодом.

Спасибо

1 Ответ

0 голосов
/ 04 сентября 2011

Формально MathGL может легко обрабатывать (изменять, составлять гистограммы, графики и т. Д.) Такой набор данных. Обычно я рисую большие наборы данных (до нескольких Гб или около> 1e8 номеров). MathGL - бесплатная (GPL и частично LGPL) библиотека для построения графиков.

...