Я работаю над конкурсом Kaggle, предсказывающим доходы от фильмов.
Я хочу использовать нейронную сеть и подумать о входах.
Одним из факторов, влияющих на доход, являются актеры фильма.
В наборе обучающих данных я обнаружил общее количество ~ 30000 различных актеров, которые могут или не могут быть в конкретном фильме (обычно один фильм содержит около 10-30 актеров).
Однако я не знаю, как ввести это в нейронную сеть. Самая простая идея, которая у меня была, - просто добавить 30000 дополнительных входных данных, которые могут принимать 0 или 1 в качестве входных данных, в зависимости от конкретного актера, играющего в фильме, или нет.
Однако я чувствую, что это не лучшее решение.
Есть ли более умные альтернативы для этой конкретной проблемы?
В Google я в основном нахожу альтернативы для быстрого кодирования, но здесь несколько значений могут принимать 1.
Спасибо