типы данных в обучении macgien - PullRequest
0 голосов
/ 10 февраля 2020

У меня есть таблица с разными типами данных. Вот некоторые из моих столбцов:

имя, время, дата, число_файлов, часы_работ, type_of_job

Джек, 10:24:54, 2015-02-15, 82, 20, менеджер проекта… .et c

Я хочу обучить этим функциям предсказывать type_of_job в компании, используя модель randomforest. У меня вопрос, должен ли я преобразовать столбцы в специфицированные c типы данных, чтобы получить хорошую точность, а как насчет времени и данных? У меня около 48970 строк, и я впервые работаю с машинным обучением.

1 Ответ

0 голосов
/ 10 февраля 2020

Да, необходимо конвертировать данные. Обычно все столбцы должны иметь числовой формат c:

  • , вы можете извлекать функции из времени - дня, часа, недели и т. Д.
  • тип работы является категориальной функцией, распространенные методы преобразования - это Labelencoding и OneHoteCoding;
  • то же самое можно сделать с другими категориальными столбцами, такими как name;
  • , если вы используете линейную модель, числовые характеристики должны быть нормализованы;
...