Одно горячее кодирование для многоуровневого категориального набора данных - PullRequest
0 голосов
/ 16 октября 2018

Мой набор данных выглядит следующим образом:

Симптомы (X) :: Состояние (Y)
лихорадка, головная боль, слепота :: синдром Вагнера
боль в зубе, лихорадка, сладкая моча :: buriболезни Бури
слепота, носовое кровотечение, лихорадка :: синдром Тейлора

, где X - особенности, а Y - мои ярлыки.Я хотел бы закодировать X в матрицу горячего кодирования.get_dummies от panda не может обрабатывать несколько значений в одном столбце, но если я разделю X на несколько столбцов, я потеряю способность кодировать симптомы в одну и ту же горячую матрицу

есть идеи?

Ответы [ 2 ]

0 голосов
/ 16 октября 2018

Вы можете сделать это с помощью Sklearn CountVectoriser, каждое слово - это столбец, строка наблюдения.Если вы установите для двоичного тега значение true, для каждой строки, если слово присутствует, оно будет представлено как 1 для этой строки | столбца.Задайте для двоичного параметра значение False и укажите, сколько раз это слово присутствует в предложении.

0 голосов
/ 16 октября 2018

Точно, ваше требование не является однократным кодированием.Для одного горячего кодирования есть только функция со значением 1, все остальные равны 0. Поэтому вы можете разделить ваш X на несколько функций, а затем использовать OrdinalEncoder в sklearn.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...