Можем ли мы иметь одни и те же закодированные объекты несколько раз в наборе данных - множественная линейная регрессия? - PullRequest
0 голосов
/ 24 июня 2019

Я новичок в машинном обучении и пытаюсь сделать POC для множественной линейной регрессии.У меня есть набор данных ниже, и я пытаюсь предсказать окончательный счет.

Набор данных

name_score  name_decision   address_score address_decision final_decision         
     0         R                      84                  U          M
    98         A                      100                 A          X
     0         R                      84                  U          X
     0         R                      94                  A          M
     0         R                      94                  A          M
     0         R                      98                  A          X

В моем наборе данных есть несколько флагов оценки и решения для результатов поиска для разныхполя поиска. Значения оценки равны 100, 90, 40 и т. д., а флаги принятия решения - как A, N, U, O и т. д.

LABEL : final_decision

ОСОБЕННОСТИ : name_score, name_decision, address_score, address_decision

Я закодировал данные для столбцов оценок и столбцов решений, используя LabelEncoder и OneHotEncoder из scikit learn.

Я хотел бы знать, является ли хорошей практикой многократное кодирование одних и тех же столбцов и использование одного и того же в наборе данных для запуска алгоритмов множественной линейной регрессии.

Любая помощь была бы полезной.

...