Как визуализировать (значение, количество) набор данных с тысячами точек данных - PullRequest
0 голосов
/ 09 марта 2011

У меня есть файл с 2 числовыми столбцами: значение и количество.Файл может иметь> 5000 строк.Я делаю plot(value, count), чтобы найти форму распределения.Но поскольку данных слишком много, картина не очень ясна.

Знаете ли вы лучший подход к визуализации?Возможно, гистограммы или гистограммы с группировкой значений закрытия по оси x будут лучшим способом просмотра данных?Я не могу понять синтаксис использования гистограммы или гистограммы для моего случая.

Ответы [ 2 ]

1 голос
/ 10 марта 2011

Если вы хотите связать две (непрерывные) величины value и count друг с другом, то вы хотите создать диаграмму рассеяния. Проблема в том, что, если у вас слишком много наблюдений, точки будут перекрываться, и график в итоге будет большой непрозрачной массой с несколькими рассеянными выбросами. Есть несколько способов решить эту проблему:

  • Используйте меньший символ черчения: plot(value, count, pch=".")

  • Построить точки данных с коэффициентом прозрачности: plot(value, count, col=rgb(0, 0, 1, alpha=0.1))

0 голосов
/ 10 марта 2011

Почему бы не построить подмножество данных? Например, нанесите на график счетчики, связанные со значениями, соответствующими 5-му, 10-му, ..., 90-м, 95-му процентилю, например,

value.subset <- quantile(value, seq(0, 1, 0.05))plot

Затем нанесите квантили против их соответствующих отсчетов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...