Как мульти-лейбл классифицировать фильмы на кинофестивалях на основе его метаданных, где метаданные представляют собой преимущественно отдельные слова? - PullRequest
0 голосов
/ 03 апреля 2020

Я создал набор данных о различных фильмах, снятых за последние несколько лет, технические специалисты работали для фильма, жанра, страны, в которой он представлен, времени работы, языка, соответствующего кинофестиваля, который выиграл фильм, и т. Д. c.

набор данных похож на this , это файл Excel.

Меня интересует мульти-лейбльная классификация фильмов на кинофестивалях, основанная на неотъемлемых особенностях мов ie (независимо от сюжета)

Я думал, что нам нужно работать в числах / векторах для мульти-метки классифицировать данные. Но я не знаю, как можно провести векторизацию имен (имен собственных) и нескольких отдельных слов.

Есть ли какой-то другой способ, которым я могу выполнить процесс для достижения моей цели классификации по нескольким меткам? с вышеуказанными данными? Пожалуйста, помогите мне определить это. Спасибо.

1 Ответ

0 голосов
/ 18 апреля 2020

У вас есть набор данных в виде таблицы. Вам необходимо векторизовать эти табличные данные, чтобы можно было передать их в классификационную модель.

Табличные данные обычно состоят из:

непрерывные функции (например, рейтинг imdb, время выполнения) категориальные функции (например: все остальные функции в вашем наборе данных)

Векторизация табличных данных - это просто объединение векторное представление каждого объекта. Для непрерывных функций вы должны нормализовать значения. Для категориальных функций вы должны быстро их кодировать.

Примечание : В случае вашего набора данных у вас есть 3 "текстовых" свойства: заголовок, режиссер и писатель:

  • title: Название уникально для его фильма, поэтому ваша модель не может извлечь из этого уроки, поэтому вы должны выбросить его из набора данных.
  • режиссер и писатель: вам следует относиться к их как категориальные переменные, а не текст. Если вы закодировали их, используя методы векторизации текста (Bag of words или TF-IDF), это означало бы, что вы предполагаете, что такое слово, как Pedro, может иметь предсказательную силу. Есть ли что-то общее между Педро Гонсалес-Рубио и Педро Альмодоваром? Если есть, возможно, они оба говорят по-испански sh, но тогда я бы предпочел добавить это как функцию к вашей модели (например: language_of_director)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...