Как мне кодировать CATEGORICAL_COLUMNS, которые имеют много значений? - PullRequest
0 голосов
/ 30 марта 2020

Я использую Tensorflow, python, Pandas для создания регрессионной модели логистики c, аналогичной этой ссылке

Вместо набора данных MNist, я использую свой собственный набор данных. Я использую Pandas для создания фреймов данных, заменяю пустые значения на функцию fillna, а затем преобразую его в тензорный набор данных с помощью from_tensor_slices.

У меня много CATEGORICAL_COLUMNS, и я использую get_dummies для выполнения кодирования OneHotEncoding (вместе с LabelEncoding). Но проблема в том, что у моих категориальных столбцов большой список слов (например, почтовый индекс ... у меня в данных тысячи почтовых индексов). Поэтому, когда я создаю столбцы, используя get_dummies, почтовый индекс создает для меня много новых столбцов.

Это хороший подход? Так я должен подходить к такому набору данных?

1 Ответ

0 голосов
/ 30 марта 2020

Когда у вас столько разных категорий, создание фиктивных столбцов не поможет. Я бы предложил поискать категории для округа или некоторых управляемых групп почтовых индексов. Если это не сработает, я просто маркирую кодировку from sklearn.preprocessing import LabelEncoder и включу закодированный столбец как функцию, чтобы посмотреть, станет ли она важной функцией, прежде чем подумать о разработке дополнительных функций.

...