Как мне обрабатывать категориальные данные, когда существует разное количество категорий для точки данных в процессе обучения и тестирования? - PullRequest
1 голос
/ 03 мая 2019

Я работаю над следующим проектом Kaggle: https://www.kaggle.com/c/house-prices-advanced-regression-techniques.

Мой вопрос заключается в том, что если есть опция для категориального значения, которое содержится в данных теста, но отсутствует в данных обучения,или наоборот.Например, если точка данных A имеет параметры [a, b] в данных обучения, но параметры [a, b, c] в данных тестирования или наоборот.Спасибо за вашу помощь!

Я просто хочу иметь возможность обучаться и правильно управлять моей нейронной сетью.

1 Ответ

2 голосов
/ 03 мая 2019

Являетесь ли вы OneHotEncoding (https://scikit -learn.org / stable / modules / generate / sklearn.preprocessing.OneHotEncoder.html ) вашими категориальными данными? Вы можете избежать этой проблемы, используя OneHotEncoding для категориальных столбцов перед разделением. Это будет означать, что модель будет обучена учитывать этот столбец. Недостаток этого подхода состоит в том, что обучение будет когда-либо видеть только значения «0» для столбца, который представляет значение, которое не видно в обучающем наборе. Может быть, не лучший вариант, но может решить проблему, которую вы видите?

Проблема вызвана тем, что у вас очень маленький набор данных или у вас есть столбец с множеством уникальных значений?

...