Я пытаюсь разработать алгоритм для крайне нелинейных случайных данных, которые в основном представляют собой дату и время.
Я должен классифицировать эту информацию, поскольку они в основном содержат ошибки, поэтому я разделил данныев 4 строки, а именно дата, время, действие и обратная связь.Но действие состоит из более чем 400 уровней.поэтому я хочу использовать, возможно, K-средства для создания кластера, чтобы уменьшить количество наблюдений и работать над ним с помощью другого алгоритма.
Мои вопросы:
- Как мне преобразовать этикатегории в числовые, так что я могу легко применять модели машинного обучения K-средних или любые методы классификации?
- Можно ли работать с этими текстовыми данными и получать мои результаты?Если да, то можете ли вы предложить метод, который я уже пробовал метод model.matrix, но он только увеличил размерность фрейма данных m, а также попытался использовать класс для генерации числовых значений этих данных.
- Могу ли я применить этот алгоритм ML, используя числовые данные, и получить хорошее представление о моих результатах?
Это дало мне более 460 переменных в новом столбце
occ.matrix <- model.matrix(~$Action-1, data = data.Protokol)
это дало мне числовые значения всех переменных в столбце
x <- unclass(data.Protokol$Action.new)
Итак, основываясь на кодах, я рассмотрел пропущенные переменные и хочу продолжить анализ и классификацию.Пожалуйста, что является лучшим способом справиться с этой проблемой с этими типами данных.Продолжить ли я с числовыми значениями категорий?@ Camile