Машинное обучение с ключевыми словами - PullRequest
0 голосов
/ 10 июня 2018

Итак, я довольно новичок в машинном обучении и у меня есть несколько вопросов о ключевых словах.Прямо сейчас я пытаюсь создать модель машинного обучения, используя некоторые данные фильма, которые я ранее собирал (Данные состоят из 4 атрибутов, которые представляют собой ключевые слова, описывающие фильм).Тем не менее, в некоторых фильмах есть больше ключевых слов, чем в других (например, ключевые слова «Человека-паука» будут «супергерой», «паук», «бой» и т. Д.). В каждом фильме содержится от 50 до 400 ключевых слов, поэтому я хотел спросить вас, нужно ли включать каждое ключевое слово в качествеотдельный атрибут или я должен просто добавить их все в «Ключевые слова» и разделить их запятыми.

Чтобы лучше проиллюстрировать мою точку зрения, приведу два примера:

Включение ключевых слов фильма в качестве отдельных атрибутов Table with movie Keyword as seperate attribute

Включение ключевого слова фильма в качестве одного атрибута

Table with movie Keyword as one attribute

Заранее большое спасибо за помощь

Ответы [ 2 ]

0 голосов
/ 11 июня 2018

Возможно, вам не нужен ни один из предложенных вами подходов.Я предполагаю, что вы хотите, чтобы ваш метод обучения мог сравнивать / классифицировать разные фильмы, используя ключевые слова.Давайте рассмотрим проблемы с предлагаемыми подходами:

  • В первом подходе вы предлагаете «упорядоченные» ключевые слова (например, ключевое слово1, ключевое слово2 и т. Д.), Но что если, например, порядок Superhero и Fight , мы получаем другой вектор признаков, даже если у нас одинаковые ключевые слова (см. Таблицу ниже)?Это не то, что мы хотим, порядок ключевых слов не должен иметь значения!

               |   Keyword1     Keyword2
     ------------------------------------
     Movie A   |  Superhero     Fight
     Movie B   |  Fight         Superhero
    
  • Двигаясь дальше, при втором подходе вы предлагаете использовать все ключевые слова в списке.Таким образом, только фильмы с одинаковыми ключевыми словами будут считаться одинаковыми.Опять же, это не совсем идеально для сравнения фильмов.Если фильм А имеет 49 ключевых слов с фильмом В, но имеет одно другое ключевое слово, метод обучения должен включать эту информацию и говорить, что фильмы очень похожи, а не говорить, что они не похожи друг на друга.

Вместо этого вы, вероятно, захотите определить сами ключевые слова как функции / атрибуты.Таким образом, обе вышеупомянутые проблемы могут быть решены, так как порядок не имеет значения, и мы все еще можем учиться по отдельным ключевым словам.Ваш набор данных ключевых слов будет выглядеть примерно так:

          |   Superhero     Fight     StackOverflow    ...
------------------------------------------------------------
Movie A   |      1            1            0           ...
Movie B   |      1            1            1           ...

, указывая, какие ключевые слова присутствуют в каких фильмах.Таким образом, фильмы можно легко сравнить практически с любым методом обучения.Обратите внимание, что я использовал здесь двоичные значения, чтобы просто указать наличие / отсутствие ключевого слова, но, в зависимости от метода обучения, можно использовать и другие представления.

0 голосов
/ 10 июня 2018

Здесь появится понятие лемматизации, попробуйте заменить похожие ключевые слова с одинаковыми именами, например, супергероя, бой, можно заменить как действие ключевое слово и танец, музыка и т. Д. Можноподпадают под другие жанр.Постарайтесь максимально сократить количество ключевых слов, а затем создайте отдельные столбцы для каждого ключевого слова.Я надеюсь, вы поняли мою точку зрения.

...