Вручение категориальных переменных в машинном обучении - PullRequest
0 голосов
/ 30 мая 2018

У меня есть данные в форме:

Функция 1 Функция 2 Функция 3 ---> Числовое значение

Проблема в том, что функция 1 похожа, строковые значения, такие как названия компаний, функция 2 естьтакже строковое значение, такое как Категория и Функция 3, является просто отметкой времени.

Я хочу обучить модель, которая, учитывая особенности, может предсказать числовое значение.

Я знаю, что можно использовать регрессиюдля него.

Но,

  1. Как преобразовать категориальные признаки, чтобы их можно было использовать в регрессии?

  2. Как использовать значение метки времени для прогноза?Должен ли я извлечь месяц, номер часа (строка от 0 до 23) и сделать их более категоричными?

Спасибо.

1 Ответ

0 голосов
/ 30 мая 2018

Поскольку мы знаем, что алгоритм машинного обучения не способен непосредственно понимать текст, поэтому нам необходимо преобразовать эти строковые значения в одно представление горячего вектора.

мы используем один горячий кодировщик для выполнения «бинаризации»категории и включить его в качестве функции для обучения модели

Таким образом, вы можете использовать панды для этого, например

import pandas as pd 
df =pd.DataFrame({'A':["google","amazon","microsoft"]})

pd.get_dummies(df)

    A_amazon    A_google    A_microsoft
     0              1          0
     1              0          0
     0              0          1

После преобразования вашей переменной в вышеуказанный формат вы можете применить регрессию Спасибо

...