Альтернатива однократному кодированию для категориальных входов с большим набором категорий - PullRequest
0 голосов
/ 03 апреля 2019

Я работаю над конкурсом Kaggle, предсказывающим доходы от фильмов. Я хочу использовать нейронную сеть и подумать о входах. Одним из факторов, влияющих на доход, являются актеры фильма. В наборе обучающих данных я обнаружил общее количество ~ 30000 различных актеров, которые могут или не могут быть в конкретном фильме (обычно один фильм содержит около 10-30 актеров).

Однако я не знаю, как ввести это в нейронную сеть. Самая простая идея, которая у меня была, - просто добавить 30000 дополнительных входных данных, которые могут принимать 0 или 1 в качестве входных данных, в зависимости от конкретного актера, играющего в фильме, или нет.

Однако я чувствую, что это не лучшее решение.

Есть ли более умные альтернативы для этой конкретной проблемы? В Google я в основном нахожу альтернативы для быстрого кодирования, но здесь несколько значений могут принимать 1.

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...