У меня есть набор данных, содержащий категориальные переменные и числа c функции:
Experiment Replicate Batch Condition Cellline Feature1 Feature2 ...
<chr> <chr> <chr> <chr> <chr> <dbl> <dbl> ...
Я использую пакет vtreat в R для обработки моих данных перед моделированием.
my_treatment <- vtreat::designTreatmentsZ(
dframe = data,
varlist = colnames(data),
minFraction = 0.05
)
data_treated <- vtreat::prepare(my_treatment, data)
После использования prepare () я проверяю столбцы catP, чтобы проверить уровни категориальных переменных:
> table(data_treated$Cellline_catP)
0.0914634146341463 0.103658536585366 0.109756097560976 0.121951219512195
15 17 72 60
Однако, хотя в моем наборе данных есть 9 клеточных линий, я смотрите только 4 в данных $ Cellline_catP.
> dplyr::count(data, dplyr::n_distinct(Cellline))
# A tibble: 1 x 2
`dplyr::n_distinct(Cellline)` n
<int> <int>
1 9 164
Разве не должно быть также 9 различных категорий в данных $ Cellline_catP? Я попытался переименовать строки (это сочетание цифр и букв) и исключить некоторые строки, но это не изменилось.