Идеи статистической диаграммы опроса - PullRequest
1 голос
/ 02 января 2011

У меня есть некоторые домашние задания в тематических обзорах и диаграммах.Первая задача - нормализовать ввод данных опроса, потому что структура данных время от времени меняется.Таким образом, существует три типа опросов:

  • статические поля, в которых хранится текст
  • динамические поля, где пользователь может выбрать один вариант
  • и поля с множественным выбором,где пользователь может выбрать несколько опций

Так что я не очень разбираюсь в статистике, поэтому я понятия не имею, что я могу сделать с этими поступающими данными.

Итак, данныеЯ храню их в огромном XML-файле, и я могу легко узнать, сколько человек заполнило опрос, и сколько раз поле было заполнено, поэтому я могу (например, на круговой диаграмме показать соотношение заполненных или незаполненных).).Вторая идея - показать связь между содержимым элемента с несколькими опциями, используя гистограмму или около того.

В случае элементов с несколькими вариантами у меня появилась идея показать данные в виде одного параметра.Но вопрос в том, что можно показать?

Другая проблема - статические элементы (текстовые поля и т. Д.).Какие данные могут быть представлены из одного поля?

Данные в поле XML собираются с 2001 по 2005 гг. Поэтому, возможно, я могу работать с датами опросов, но, как я уже сказал, я не знаю, как обрабатывать данные, собирать их какнасколько это возможно, чтобы создать действительно большое количество диаграмм.

Ответы [ 2 ]

0 голосов
/ 09 января 2011

Я бы не рекомендовал круговые диаграммы.Вместо этого используйте гистограммы или точечные графики.Гораздо проще различить в них похожие частоты для разных категорий.Упорядочивать категории по частотам в них тоже почти всегда хорошая идея.Здесь вы можете найти небольшую статью о том, почему плохие круговые диаграммы .

Трехмерные диаграммы могут выглядеть красиво и являются изящным способом произвести впечатление на людей с небольшими знаниями о визуализации данных (что может бытьтебе нужно ;-) ).Но большинство экспертов считают их плохой практикой, поскольку использование дополнительных измерений, которые не являются абсолютно необходимыми, отвлекает читателя от фактических данных.

Лично я считаю, что кросс-таблицы и диаграммы рассеяния являются довольно понятными способами отображения связей между двумя измерениями данных.

Часто рекомендуется представлять некоторые базовые статистические данные вместе с диаграммами, но убедитесь, что вы делаете это только тогда, когда это уместно.См. статью Википедии , если вы хотите узнать, какие одномерные статистические данные (например, среднее значение) подходят для каких данных.

Если вы серьезно хотите узнать о визуализации данных, я могуочень рекомендую книги Эдварда Туфте на эту тему.Их действительно приятно читать.Несмотря на то, что они опираются на прочную научную базу, их легко понять, даже если они практически не имеют опыта работы в этой области.

0 голосов
/ 08 января 2011

После нормализации ваших данных (что может быть сложнее, чем визуализация части вашей работы), вы можете сделать следующее:

  • Чтобы показать ваши статические поля, которые содержат тексты, вы можете перекодироватьЭтот текст для новых переменных, содержащих меньше категорий, которые могут поместиться на графике / графике.Другой способ - создать облака слов в текстах - как на wordle.net .
  • Динамические поля, каждое из которых содержит только один ответ, могут быть простыми для отображения.Вы можете сделать круговую диаграмму, чтобы показать проценты атрибутов, или, скорее, гистограмму, которая также может отображать проценты / плотности или частоты (например, см. Пакет ggplot2 в R).
  • Чтобы отобразить поля множественного выбора, вы должны реструктурировать дату в соответствующий формат (я не знаю, как это выглядит сейчас).Это может быть сделано с помощью разных таблиц, которые показывают количество (частоты) для каждой категории во всех переменных.Например: 187 человек съели шоколад, 160 съели хлеб и 50 человек съели пиццу вчера.Затем вы можете легко показать значения в виде диаграммы.Обратите внимание: сумма этих пар не будет равна размеру выборки, так как любой может выбрать несколько значений, поэтому круговая диаграмма будет действительно плохим выбором.

Я надеюсь, что смогу помочь.

...