более быстрая, более привлекательная альтернатива для категориальной визуализации (против мозаики vcd) - PullRequest
0 голосов
/ 08 ноября 2019

Я хотел бы визуализировать композицию кадра данных с четырьмя категориальными столбцами. Создание кросс-таблицы почти мгновенно, но mosaic() работал на сервере 756 ГБ в течение часа, прежде чем я его остановил. Сервер имеет 64 ядра ... одно было прикреплено к моей работе, ивсе остальные были бесплатными.

Я открыт для использования чего-то другого, кроме mosaic(), поскольку это создает визуальный обзор того, как различные категориальные уровни отображаются вместе по строкам.

library(vcd)
dim(common.loinc.parts)
# [1] 14273     4
head(common.loinc.parts)
# A tibble: 6 x 4
#  prop  time  sys      scale
#  <chr> <chr> <chr>    <chr>
#1 MCnc  Pt    Plas     Qn   
#2 MCnc  Pt    Ser      Qn   
#3 MCnc  Pt    Ser/Plas Qn   
#4 MCnc  Pt    Plas     Qn   
#5 MCnc  Pt    Ser      Qn   
#6 MCnc  Pt    Ser/Plas Qn   

tabulated <- xtabs(data = common.loinc.parts)

length(tabulated)
# [1] 246330

object.size(tabulated)
# 998168 bytes

mosaic(tabulated)

Вот мозаика из трех столбцов с наименьшим количеством уровней: time, prop и scale. Я даже отфильтровал все строки, чье значение prop не попало в верхние 9 уровней. В этом случае построение мозаики занимает всего несколько секунд. Я вручную пошатнулся и раскрасил этикетки.

enter image description here

Что говорит мозаика? Почти все строки представляют собой количественные измерения (scale = Qn), которые были сделаны в определенный момент времени (time = Pt). Из них массовая концентрация (MCnc) является наиболее распространенным измеряемым свойством.

Мне просто нереально пытаться включить все уровни prop плюс столбец sys, который имеет еще большеуровни? Я спрашиваю как с точки зрения времени исполнения, так и с точки зрения эстетики?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...