Что такое простой инструмент визуализации для отображения количества слов? - PullRequest
3 голосов
/ 15 сентября 2011

У меня есть текстовый файл, в котором подсчитано, сколько раз фраза появляется внутри корпуса.Файл выглядит следующим образом: фраза и ее число разделены символом "=":

phrase1=100
phrase2=156
... and so on

Что представляет собой хороший простой инструмент визуализации, который может взять этот файл (или слегка измененную версию), ипредоставьте мне приятную визуализацию в форме пузырьков, где размер пузырьков пропорционален количеству фраз.Я бы предпочел, чтобы фраза была написана внутри пузыря.

Ответы [ 2 ]

7 голосов
/ 21 сентября 2011

Тип графика, на который вы ссылались в ОП ( пузырьковый график ), также называется всплывающий график .

Название вашего вопроса направлено на более общую проблему интуитивного отображения частоты слов в данном тексте. Учитывая это, возможно, стоит упомянуть, что гуру инфографики критически относятся к пузырьковым графикам , потому что график основан на отображении значений данных в области круга .

К сожалению, те же самые гуру не договорились о вероятном наборе альтернатив (насколько я знаю).

Лучшая альтернатива пузырьковому графику для отображения частоты термина, о которой я могу думать, обычно называется облаком тегов .

В своем блоге, Статистика, R, Графика и Развлечения , Yihui Xie, написал превосходное руководство по созданию облаков тегов с использованием R. Его руководство отлично по двум причинам - оно хорошо написано с пошаговый код, и результат красивый.

См. Также этот пост в блоггерах R для обучения созданию лучшего облака тегов.

Но если вам нужен сюжет с пузырем (он же воздушный шар), то пошли.

Их просто создать в R. Имеется детально пошаговое руководство для создания и полировки Bubble Charts на отличном сайте Flow Data .

Кроме того, пакет R gplots (доступно на CRAN ) включает в себя функцию balloonplot для их непосредственного построения.

С сайта текущих данных:

enter image description here

1 голос
/ 16 сентября 2011

Хм, я не уверен, что полностью понимаю вашу идею Bubble-графики. Для многих фраз это не выглядит осуществимым для меня. Вы смотрели на GraphViz ?

Я сделал похожий проект для подсчета слов в Википедии:

Wikipedia Frequency List

Лучший способ, который я знаю, - это использовать двойной логарифмический масштаб. Вы, вероятно, можете добавить несколько фраз на графике. Я создал всю графику здесь с Xmgrace .

...