Как кодировать столбец с высоким количеством элементов? - PullRequest
0 голосов
/ 17 мая 2019

Я пытаюсь найти способ кодировать столбец, который у меня есть, который в основном содержит разные степени в разных областях, и я подумал, что может быть лучшим способом для его кодирования.

  df['Ultima_Formazione'].value_counts()

   PhD |    Mathematics                                                                                                             2824
   Master's degree in Management Engineering                                                                                     2794
   Laurea Magistrale in Scienze Statistiche per le Decisioni | CdL Magistrale in Scienze Statistiche per le Decisioni LM-82 |    2791
   Master's degree | Geographic Information Science and Cartography | 110/110 | Master's degree                                   472
   Elettronica e     Telecomunicazioni                                                                                                468
   Master in Business Intelligence e Big Data Analytics                                                                           371
   Physics                                                                                                                        364
   Laurea Magistrale  LM | Scienze statistiche ed economiche |                                                                    360
   Laurea | Informatica                                                                                                           316
   Management |                                                                                                                   300
   Master's degree | Master in Marketing & Service Management |                                                                   267
   Informatica Applicata | Informatica                                                                                            265
   .
   .
   .
   .
   .


   Name: Ultima_Formazione, Length: 329, dtype: int64

С самого утра я читал о лучшем подходе, но никто из них не убедил меня, что одно горячее кодирование определенно не вариант, встраивание с использованием Deep Learning очень заманчиво, но я не думаю, что оно подойдет работа, дающая структуру моей колонны.

Любое предложение, будет высоко ценится, спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...