Я тренирую нейронную сеть в керасе для классификации данных (мультикласс, мультимарка).
Моя проблема касается конкретно кодирования меток и быстрого кодирования. До сих пор у меня не было никаких проблем, но недавно я получил некоторые данные класса, которые известны для некоторых образцов, но неизвестны для других. В идеале это не проблема, так как я хотел бы, чтобы сеть попыталась поместить их в известные классы (с наибольшим количеством побед). Однако я хотел знать, как люди здесь будут вводить эти данные. То, чего я стараюсь избегать, - это поместить что-то вроде NaN в неизвестные столбцы ... и NaN рассматривается как его собственный класс. Можно ли просто оставить пустым?
Мой код выглядит следующим образом:
metadata=counts.iloc[20501:,]
metadata
metadata=metadata.transpose()
#binarize elements of metadata
le = LabelEncoder()
metadataencode= metadata.apply(le.fit_transform)
metadataencode
##one-hot encode data
cat_1=to_categorical(metadataencode["cat1"],num_classes=12)
cat_2=to_categorical(metadataencode["Age"],num_classes=7)
# Create multi-label targets-- as each sample can belong to both cat1 and cat2
trainingtarget = np.concatenate((cat_1,cat_2), axis=1)
trainingtarget
keras train et c
для некоторых категорий, таких как cat1, каждая выборка может отображаться следующим образом: известный известный известный неизвестный известный известный ...
это неизвестная категория, в которой я не уверен относительно способа ввода перед запуском LabelEncoder. Если это будет пусто, NA et c ....
Я читаю эту тему внимательно, но я не думаю, что она точно отвечает на мой вопрос
отсутствует кодировка метки-кодировщика значения
спасибо!