Есть ли хороший и простой способ визуализации данных больших размеров? - PullRequest
17 голосов
/ 25 апреля 2011

Может кто-нибудь сказать мне, если есть хороший (простой) способ визуализации данных больших размеров? Мои данные в настоящее время 21 измерения, но я хотел бы видеть, насколько он плотный или разреженный. Существуют ли методы для достижения этой цели?

Ответы [ 9 ]

16 голосов
/ 25 апреля 2011

Параллельные координаты - это популярный метод визуализации многомерных данных.

Какой тип визуализации лучше всего подходит для ваших данных, в частности, зависит от их характеристик - насколько коррелированыразные размеры?

10 голосов
/ 25 апреля 2011

Анализ главных компонентов может быть полезным, если размеры взаимосвязаны.

8 голосов
/ 25 апреля 2011

Модное слово, которое я бы искал: многомерное масштабирование .Это метод разработки проекции из многомерного пространства в нижнее пространство (2 или 3-мерное) таким образом, чтобы точки, находящиеся близко в полном пространстве, были близки в проекции.

Эточасто используется для визуализации выходных данных алгоритмов кластеризации (т. е. если ваши кластеры компактны в проекции MDS, есть большая вероятность, что они также находятся на полном пространстве).

Редактировать: это не обязательно поможетопределение, являются ли данные плотными или разреженными, потому что вы потеряете масштаб в проекции, но он покажет, является ли он равномерным или комковатым (возможно, это то, что вы имеете в виду).

3 голосов
/ 15 июня 2017

Я искал способы визуализации данных большого размера и нашел эту методику t-SNE , которая была эффективно использована. Может помочь и другим.

3 голосов
/ 23 июня 2014

Не уверен, какие шаблоны вы хотели бы видеть из данных. t-SNE и его более быстрый вариант Barnes-Hut-SNE отлично справляются с визуализацией групп связанных понятий для многомерных данных. Доступен через R.

Существует краткое руководство по его использованию с многомерными данными примерно с 300 измерениями. http://www.codeproject.com/Tips/788739/Visualizing-High-Dimensional-Vector-using-T-SNE-wi

2 голосов
/ 13 января 2015

Взгляните на http://www.ggobi.org (обходы, параллельные координаты, матрицы диаграмм рассеяния), которые могут использоваться для вещественных переменных.Также http://cranvas.org для более свежих.Турпакет в Р.

1 голос
/ 15 ноября 2017

Попробуйте использовать http://hypertools.readthedocs.io/en/latest/.

HyperTools - это библиотека для визуализации и управления многомерными данными в Python.

0 голосов
/ 08 мая 2013

Программное обеспечение для исследования данных curios.IT предназначено для визуализации многомерных данных: данные отображаются в виде набора трехмерных объектов (по одному для каждой группы данных), которые могут отображать до 13 переменных прив то же время.Взаимосвязи между переменными данных и визуальными функциями гораздо легче запомнить, чем при использовании других методов (например, параллельных координат).

0 голосов
/ 25 апреля 2011

Схема звезды.

http://en.wikipedia.org/wiki/Star_schema

Хорошо работает для многомерных данных.

Если количество элементов вашей таблицы фактов близко к произведению размеров ваших измерений, у вас есть плотные данные.

Если количество элементов вашей таблицы фактов меньше, чем произведение размеров ваших измерений, у вас есть разреженные данные.

В середине у вас есть призыв к суду.

...