У меня есть смешанный набор данных из числовых и категориальных переменных.Я пытался реализовать kprototype на основе https://www.kaggle.com/rahultej/k-prototypes-correlation-randomforest и https://journal.r -project.org / archive / 2018 / RJ-2018-048 / RJ-2018-048.pdf
Итак, я просто удалил столбцы, содержащие NA в моем фрейме данных, и попытался реализовать kprototype без каких-либо преобразований данных для категориальной переменной.
Столбцы, содержащие категориальные данные, не имеют одинакового числакатегории в нем.Пример: столбец X имеет 4 категории, а столбец Y - 15 категорий.Я не уверен, что kprototype будет работать для такого сценария ??
Я получаю следующую ошибку
Ошибка в Ops.data.frame (x [, j], rep (protos [i, j], nrows)): список длиной 1043 не имеет значения
Я также пытался преобразовать категориальные переменные в числовые.Я не использовал функцию масштабирования, хотя.Когда я преобразую категориальную переменную в числовое значение, она выдает ошибку «Без факторных переменных в x! Попробуйте использовать kmeans () ...»
data_kproto <- kproto(data, k = 4)