Question

Мой набор данных выглядит следующим образом:

Симптомы (X) :: Состояние (Y)
лихорадка, головная боль, слепота :: синдром Вагнера
боль в зубе, лихорадка, сладкая моча :: buriболезни Бури
слепота, носовое кровотечение, лихорадка :: синдром Тейлора

, где X - особенности, а Y - мои ярлыки.Я хотел бы закодировать X в матрицу горячего кодирования.get_dummies от panda не может обрабатывать несколько значений в одном столбце, но если я разделю X на несколько столбцов, я потеряю способность кодировать симптомы в одну и ту же горячую матрицу

есть идеи?

Edward Burgin · Answer 1 · 16 октября 2018

Вы можете сделать это с помощью Sklearn CountVectoriser, каждое слово - это столбец, строка наблюдения.Если вы установите для двоичного тега значение true, для каждой строки, если слово присутствует, оно будет представлено как 1 для этой строки | столбца.Задайте для двоичного параметра значение False и укажите, сколько раз это слово присутствует в предложении.

NormanZhu · Answer 2 · 16 октября 2018

Точно, ваше требование не является однократным кодированием.Для одного горячего кодирования есть только функция со значением 1, все остальные равны 0. Поэтому вы можете разделить ваш X на несколько функций, а затем использовать OrdinalEncoder в sklearn.

Одно горячее кодирование для многоуровневого категориального набора данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Одно горячее кодирование для многоуровневого категориального набора данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы