Как кодировать случайные категориальные данные в r - PullRequest
0 голосов
/ 20 сентября 2019

Я пытаюсь разработать алгоритм для крайне нелинейных случайных данных, которые в основном представляют собой дату и время.

Я должен классифицировать эту информацию, поскольку они в основном содержат ошибки, поэтому я разделил данныев 4 строки, а именно дата, время, действие и обратная связь.Но действие состоит из более чем 400 уровней.поэтому я хочу использовать, возможно, K-средства для создания кластера, чтобы уменьшить количество наблюдений и работать над ним с помощью другого алгоритма.

Мои вопросы:

  1. Как мне преобразовать этикатегории в числовые, так что я могу легко применять модели машинного обучения K-средних или любые методы классификации?
  2. Можно ли работать с этими текстовыми данными и получать мои результаты?Если да, то можете ли вы предложить метод, который я уже пробовал метод model.matrix, но он только увеличил размерность фрейма данных m, а также попытался использовать класс для генерации числовых значений этих данных.
  3. Могу ли я применить этот алгоритм ML, используя числовые данные, и получить хорошее представление о моих результатах?

Это дало мне более 460 переменных в новом столбце

occ.matrix <- model.matrix(~$Action-1, data = data.Protokol)

это дало мне числовые значения всех переменных в столбце

x <- unclass(data.Protokol$Action.new)

Итак, основываясь на кодах, я рассмотрел пропущенные переменные и хочу продолжить анализ и классификацию.Пожалуйста, что является лучшим способом справиться с этой проблемой с этими типами данных.Продолжить ли я с числовыми значениями категорий?@ Camile

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...