R vtreat prepare () вывод cat_P - PullRequest
       16

R vtreat prepare () вывод cat_P

0 голосов
/ 31 января 2020

У меня есть набор данных, содержащий категориальные переменные и числа c функции:

Experiment Replicate Batch Condition Cellline  Feature1 Feature2   ...
  <chr>      <chr>   <chr>   <chr>    <chr>     <dbl>     <dbl>    ...

Я использую пакет vtreat в R для обработки моих данных перед моделированием.

my_treatment <- vtreat::designTreatmentsZ(
  dframe = data,
  varlist = colnames(data),
  minFraction = 0.05
)
data_treated <- vtreat::prepare(my_treatment, data)

После использования prepare () я проверяю столбцы catP, чтобы проверить уровни категориальных переменных:

> table(data_treated$Cellline_catP)

0.0914634146341463  0.103658536585366  0.109756097560976  0.121951219512195 
                15                 17                 72                 60 

Однако, хотя в моем наборе данных есть 9 клеточных линий, я смотрите только 4 в данных $ Cellline_catP.

> dplyr::count(data, dplyr::n_distinct(Cellline))
# A tibble: 1 x 2
  `dplyr::n_distinct(Cellline)`     n
                          <int> <int>
1                             9   164

Разве не должно быть также 9 различных категорий в данных $ Cellline_catP? Я попытался переименовать строки (это сочетание цифр и букв) и исключить некоторые строки, но это не изменилось.

...