Я использую Tensorflow, python, Pandas для создания регрессионной модели логистики c, аналогичной этой ссылке
Вместо набора данных MNist, я использую свой собственный набор данных. Я использую Pandas для создания фреймов данных, заменяю пустые значения на функцию fillna, а затем преобразую его в тензорный набор данных с помощью from_tensor_slices.
У меня много CATEGORICAL_COLUMNS, и я использую get_dummies для выполнения кодирования OneHotEncoding (вместе с LabelEncoding). Но проблема в том, что у моих категориальных столбцов большой список слов (например, почтовый индекс ... у меня в данных тысячи почтовых индексов). Поэтому, когда я создаю столбцы, используя get_dummies, почтовый индекс создает для меня много новых столбцов.
Это хороший подход? Так я должен подходить к такому набору данных?