Каковы некоторые хорошие структуры / библиотеки статистической визуализации для пользовательских данных? - PullRequest
4 голосов
/ 02 марта 2011

Некоторое время мы собирали пользовательские данные на нашем сайте, и теперь мы хотели бы представить данные в доступной форме.

У нас есть база данных, полная данных, мы просто ищем платформу, в которую мы можем поместить все наши данные и иметь возможность визуализировать их.

Некоторые требования:

  • Должен иметь возможность сортировать и фильтровать по нескольким измерениям (например, по пользователю, по типу действия, по дате, по метаданным)
  • Должен иметь возможность экспортировать представления данных в файлы CSV / XML
  • Должен быть представлен через веб-интерфейс (без настольных приложений)
  • Должен использоваться с Scala, Java, Python или Ruby

Мы рассмотрели использование Vaadin, и нам нравится тот уровень контроля, который мы можем иметь, но я хотел бы изучить другие потенциальные решения.

Есть ли какие-либо предложения для фреймворков, которые могли бы помочь нам отобразить нашу статистику?

Ответы [ 3 ]

4 голосов
/ 03 марта 2011

Мне очень приятно работать с визуализациями Google и библиотекой Java, которую предоставляет Google. Я даже написал адаптер для него - в Scala - для работы с LucidDb, так как адаптер БД, поставляемый по умолчанию, предназначен только для MySQL.

В частности, карта движения - вещь прекрасной красоты.

обновление

Lucid - отличный способ справиться с огромным количеством данных, успешно работая с размерами, превышающими 1 ТБ. Он ориентирован на столбцы (например, vertica или SybaseIQ), поэтому вы не будете платить за ввод-вывод при извлечении целых строк данных, просто выбрав пару столбцов.

Также полезным является тот факт, что Lucid может запрашивать данные через SQL и имеет клиентский драйвер jdbc в сочетании с библиотекой Java для визуализации google. Это идеальное совпадение, поскольку библиотека может переводить большую часть своего собственного формата запроса в SQL, таким образом, минимизируя объем обработки, которую он должен выполнить после запроса.

Я запускаю это в рамках Scalate, собирая весь javascript для динамического отображения графиков. Таким образом, я могу легко изменять параметры запроса на основе других элементов управления на странице и вставлять новые данные в диаграмму без необходимости перезагрузки страницы. В зависимости от того, насколько тяжелым будет ваш сайт, Lift подойдет вам лучше.

На настройку у меня ушло около недели, хотя у меня уже был опыт работы с библиотекой Google.

1 голос
/ 21 июля 2011

Infobright также является популярным выбором для хранения огромных объемов данных и извлечения их для аналитики. Он ориентирован на столбцы и использует архитектуру сетки знаний для быстрого и простого разрешения запросов. Он доступен как с открытым исходным кодом, так и в корпоративной версии.

Infobright предлагает виртуальную машину вместе с Pentaho, Jaspersoft и BIRT на своем сайте infobright.org. Если вы хотите поиграть с этими инструментами BI, я рекомендую вам начать там.

1 голос
/ 03 марта 2011

я думаю Pentaho BI должно соответствовать вашим потребностям.Пакет реализован в Java!Интеграция данных pentaho (чайник) должна быть в состоянии обрабатывать все форматы данных (sql-db, xml, csv, txt и т. Д.).

Существует также Pentaho Community Edition (с открытым исходным кодом)и бесплатно) .стоит попробовать!

...