Я новичок в машинном обучении и пытаюсь сделать POC для множественной линейной регрессии.У меня есть набор данных ниже, и я пытаюсь предсказать окончательный счет.
Набор данных
name_score name_decision address_score address_decision final_decision
0 R 84 U M
98 A 100 A X
0 R 84 U X
0 R 94 A M
0 R 94 A M
0 R 98 A X
В моем наборе данных есть несколько флагов оценки и решения для результатов поиска для разныхполя поиска. Значения оценки равны 100, 90, 40 и т. д., а флаги принятия решения - как A, N, U, O и т. д.
LABEL : final_decision
ОСОБЕННОСТИ : name_score, name_decision, address_score, address_decision
Я закодировал данные для столбцов оценок и столбцов решений, используя LabelEncoder и OneHotEncoder из scikit learn.
Я хотел бы знать, является ли хорошей практикой многократное кодирование одних и тех же столбцов и использование одного и того же в наборе данных для запуска алгоритмов множественной линейной регрессии.
Любая помощь была бы полезной.