Я хотел бы визуализировать композицию кадра данных с четырьмя категориальными столбцами. Создание кросс-таблицы почти мгновенно, но mosaic()
работал на сервере 756 ГБ в течение часа, прежде чем я его остановил. Сервер имеет 64 ядра ... одно было прикреплено к моей работе, ивсе остальные были бесплатными.
Я открыт для использования чего-то другого, кроме mosaic()
, поскольку это создает визуальный обзор того, как различные категориальные уровни отображаются вместе по строкам.
library(vcd)
dim(common.loinc.parts)
# [1] 14273 4
head(common.loinc.parts)
# A tibble: 6 x 4
# prop time sys scale
# <chr> <chr> <chr> <chr>
#1 MCnc Pt Plas Qn
#2 MCnc Pt Ser Qn
#3 MCnc Pt Ser/Plas Qn
#4 MCnc Pt Plas Qn
#5 MCnc Pt Ser Qn
#6 MCnc Pt Ser/Plas Qn
tabulated <- xtabs(data = common.loinc.parts)
length(tabulated)
# [1] 246330
object.size(tabulated)
# 998168 bytes
mosaic(tabulated)
Вот мозаика из трех столбцов с наименьшим количеством уровней: time
, prop
и scale
. Я даже отфильтровал все строки, чье значение prop
не попало в верхние 9 уровней. В этом случае построение мозаики занимает всего несколько секунд. Я вручную пошатнулся и раскрасил этикетки.
Что говорит мозаика? Почти все строки представляют собой количественные измерения (scale
= Qn), которые были сделаны в определенный момент времени (time
= Pt). Из них массовая концентрация (MCnc) является наиболее распространенным измеряемым свойством.
Мне просто нереально пытаться включить все уровни prop
плюс столбец sys
, который имеет еще большеуровни? Я спрашиваю как с точки зрения времени исполнения, так и с точки зрения эстетики?