У меня есть данные, которые состоят из числовых и категориальных переменных. Категориальные переменные имеют много категорий, поэтому я использую вложения для их представления. Моя модель - это простая нейронная сеть. Я знаю, что когда вы определяете слой Embedded, вам нужно пройти input_dim=number of categories + 1
, чтобы учесть невидимые в обучении категории. Это то, что я сделал.
Кроме того, при кодировании этих категорий в числовые значения для ввода их в нейронную сеть я сделал следующее:
1. Перечислите все уникальные значения в обучении установите и поместите их в словарь. Сохраните также переменную с именем num_values
, которая является числом уникальных категорий + 1.
2. Для набора проверки, если значение отсутствует в словаре, я даю ему значение num_values
.
Это создает проблему, потому что, когда я хочу оценить модель (используя model.predict()
), я получаю сообщение об ошибке, подобное:
tensorflow.python.framework.errors_impl.InvalidArgumentError: indices[0,0] = 118752 is not in [0, 118752)
Это потому, что в наборе проверки у меня была невидимая категория в некоторой переменной, и он был сопоставлен с num_values
, но num_values
никогда не назначается какой-либо категории в обучающем наборе , поскольку построение словаря происходит на обучающем наборе. Я не знаю, как решить эту проблему.
Я использую Keras 2.3.1 и Tensorflow 1.13.1
Соответствующий код:
class EmbeddingMapping:
"""
An instance of this class should be defined
for each categorical variable you want to use.
"""
def __init__(self, series: pd.Series) -> None:
# get a list of unique values
values = series.unique().tolist()
# dictionary mapping
self.embedding_dict: Dict[str, int] = {value: int_value + 1 for int_value, value in enumerate(values)}
self.num_values: int = len(values) + 1 # +1 for unknown categories
def get_mapping(self, value: str) -> int:
# return value if it was seen in training
if value in self.embedding_dict:
return self.embedding_dict[value]
# else return num_values which is the same for all
# unseen values
else:
return self.num_values
# build mappings
res_dict_train: Dict[str, EmbeddingMapping] = {}
res_dict_val: Dict[str, EmbeddingMapping] = {}
for var in categorical_features:
embd_train = EmbeddingMapping(X_train_categorical[var])
temp_series_train = X_train_categorical[var].apply(embd_train.get_mapping)
temp_series_val = X_val_categorical[var].apply(embd_train.get_mapping)
res_dict_train[var] = temp_series_train
res_dict_val[var] = temp_series_val
X_train_categorical = X_train_categorical.assign(**res_dict_train)
X_val_categorical = X_val_categorical.assign(**res_dict_val)
# Keras
# Categorical vars
models_lst = []
inputs = []
for cat_feature in categorical_features:
print('---------------------------------------')
print(f'Info for categorical feature {cat_feature}')
input_i = Input(shape=(1,), dtype='int32')
inputs.append(input_i)
num_categories = EmbeddingMapping(X_train_categorical[cat_feature]).num_values
print(f"Number of categories: {num_categories}")
embedding_size = min(np.ceil(num_categories/2), 50) # rule of thumb
embedding_size = int(embedding_size)
print(f'Embedding size: {embedding_size}')
model_i = Embedding(input_dim=num_categories, output_dim=embedding_size, input_length=1, name=f'embedding_{cat_feature}')(input_i)
model_i2 = Reshape(target_shape=(embedding_size,))(model_i)
models_lst.append(model_i2)
# layer for numerical
input_numerical = Input(shape=(len(numerical_features),), dtype='float32')
numerical_model = Reshape(target_shape=(2,))(input_numerical)
models_lst.append(numerical_model)
inputs.append(input_numerical)
concatenated = concatenate(models_lst, axis=-1)
mymodel = Dense(50, activation="relu")(concatenated)
mymodel2 = Dense(15, activation="relu")(mymodel)
mymodel3 = Dense(1, activation='sigmoid')(mymodel2)
final_model = models.Model(inputs, mymodel3)
final_model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['acc', 'binary_accuracy'])
final_model.fit(x=train_input_list, validation_data=(val_input_list, y_val), y=y_train, epochs=1, batch_size=128)
Я получаю ошибка, когда эпоха заканчивается, и модель пытается вычислить статистику проверки.