Для преобразования категориальных данных в числовые данные без кодирования One Hot - PullRequest
0 голосов
/ 02 июля 2019

У меня есть матрица данных X с именем столбца или элемента Country. В этой функции есть 10 разных стран в списке . В столбце Страна есть 20 тысяч строк с 1 страной в каждой строке. Это проблема двоичной классификации с 0 или 1 в качестве выходного значения y

Я хочу преобразовать эту функцию страны в числовое значение , но не с помощью горячей кодировки.

Метод следования:

  1. давайте предположим, что Индия встречается 5 раз с 0 метками классов и 3 раза с 1 метками классов И США встречается 7 раз с 0 метками классов и 5 раз с 1 метками классов в столбцах страны.
  2. Теперь преобразование в 2 измерения как Страна_0 и Страна_1.
Line-1  ,    Row no.  , Country  ,Country_0 , Country_1   ,  Class_labels
Line 2  ,    1st row  ,  india  ,    5/8    ,   3/8       ,    0
Line 3  ,    2nd row  ,  usa    ,    7/12   ,   5/12      ,    1

Как преобразовать его в 2 измерения со значением вероятности. Я написал строку 1, строку 2 и строку 3 в табличном формате.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...