Я пытаюсь найти способ кодировать столбец, который у меня есть, который в основном содержит разные степени в разных областях, и я подумал, что может быть лучшим способом для его кодирования.
df['Ultima_Formazione'].value_counts()
PhD | Mathematics 2824
Master's degree in Management Engineering 2794
Laurea Magistrale in Scienze Statistiche per le Decisioni | CdL Magistrale in Scienze Statistiche per le Decisioni LM-82 | 2791
Master's degree | Geographic Information Science and Cartography | 110/110 | Master's degree 472
Elettronica e Telecomunicazioni 468
Master in Business Intelligence e Big Data Analytics 371
Physics 364
Laurea Magistrale LM | Scienze statistiche ed economiche | 360
Laurea | Informatica 316
Management | 300
Master's degree | Master in Marketing & Service Management | 267
Informatica Applicata | Informatica 265
.
.
.
.
.
Name: Ultima_Formazione, Length: 329, dtype: int64
С самого утра я читал о лучшем подходе, но никто из них не убедил меня, что одно горячее кодирование определенно не вариант, встраивание с использованием Deep Learning очень заманчиво, но я не думаю, что оно подойдет работа, дающая структуру моей колонны.
Любое предложение, будет высоко ценится, спасибо.