Возможно, вам не нужен ни один из предложенных вами подходов.Я предполагаю, что вы хотите, чтобы ваш метод обучения мог сравнивать / классифицировать разные фильмы, используя ключевые слова.Давайте рассмотрим проблемы с предлагаемыми подходами:
В первом подходе вы предлагаете «упорядоченные» ключевые слова (например, ключевое слово1, ключевое слово2 и т. Д.), Но что если, например, порядок Superhero и Fight , мы получаем другой вектор признаков, даже если у нас одинаковые ключевые слова (см. Таблицу ниже)?Это не то, что мы хотим, порядок ключевых слов не должен иметь значения!
| Keyword1 Keyword2
------------------------------------
Movie A | Superhero Fight
Movie B | Fight Superhero
Двигаясь дальше, при втором подходе вы предлагаете использовать все ключевые слова в списке.Таким образом, только фильмы с одинаковыми ключевыми словами будут считаться одинаковыми.Опять же, это не совсем идеально для сравнения фильмов.Если фильм А имеет 49 ключевых слов с фильмом В, но имеет одно другое ключевое слово, метод обучения должен включать эту информацию и говорить, что фильмы очень похожи, а не говорить, что они не похожи друг на друга.
Вместо этого вы, вероятно, захотите определить сами ключевые слова как функции / атрибуты.Таким образом, обе вышеупомянутые проблемы могут быть решены, так как порядок не имеет значения, и мы все еще можем учиться по отдельным ключевым словам.Ваш набор данных ключевых слов будет выглядеть примерно так:
| Superhero Fight StackOverflow ...
------------------------------------------------------------
Movie A | 1 1 0 ...
Movie B | 1 1 1 ...
, указывая, какие ключевые слова присутствуют в каких фильмах.Таким образом, фильмы можно легко сравнить практически с любым методом обучения.Обратите внимание, что я использовал здесь двоичные значения, чтобы просто указать наличие / отсутствие ключевого слова, но, в зависимости от метода обучения, можно использовать и другие представления.