Есть ли способ решить эту ошибку в проблеме cardinality_threshold? - PullRequest
0 голосов
/ 30 апреля 2020

Я пытался использовать ggpairs для визуализации своего набора данных, но я получаю сообщение об ошибке, которое не понимаю. Может кто-нибудь помочь мне?

> describe(Mydata)
         vars      n     mean       sd   median  trimmed      mad min       max     range  skew
Time            1 192008  4257.07  2589.28  4156.44  4210.33  3507.03   0   8869.91   8869.91  0.09
Source*         2 192008     9.32     5.95     8.00     8.53     2.97   1     51.00     50.00  3.39
Destination*    3 192008     8.22     6.49     7.00     7.31     2.97   1     51.00     50.00  3.07
Protocol*       4 192008    16.14     4.29    19.00    16.77     0.00   1     20.00     19.00 -1.26
Length          5 192008   166.12   464.07    74.00    96.25    11.86  60  21786.00  21726.00 14.40
Info*           6 192008 63731.70 46463.90 60732.50 62899.62 69904.59   1 131625.00 131624.00  0.14
         kurtosis     se
Time            -1.28   5.91
Source*         15.94   0.01
Destination*    13.21   0.01
Protocol*        0.66   0.01
Length         349.17   1.06
Info*           -1.47 106.04
> Mydata[,1][Mydata[,1] ==0]<-NA
> ggpairs(Mydata)
Error in stop_if_high_cardinality(data, columns, cardinality_threshold) : 
  Column 'Source' has more levels (51) than the threshold (15) allowed.
Please remove the column or increase the 'cardinality_threshold' parameter. Increasing the 
cardinality_threshold may produce long processing times

1 Ответ

0 голосов
/ 30 апреля 2020

Как следует из ошибки, способ избавиться от ошибки состоит в том, чтобы установить cardinality_threshold=NULL или cardinality_threshold=51 как Source, а Destination являются факторными переменными с 51 уровнем.

Однако, им, вероятно, будет трудно разглядеть какие-либо детали на графиках, если они вообще будут отображаться, потому что одна из панелей графика будет пытаться вписать 51 барплот с 51 колонкой. Возможно, вы захотите подумать, имеет ли смысл группировать уровни факторов для анализа, который вас интересует, или исключить факторы (хотя при этом остаются только две непрерывные переменные).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...