топи c классификация с использованием индекса k-грамм - PullRequest
0 голосов
/ 15 апреля 2020

У меня есть набор тем, каждый из которых описан со списком ключевых слов. {Sports:['Ronaldo Messi Zidane','Football Baseball', 'Barcelona Real']...}

Задача состоит в классификации конкретного документа. Классификация может быть также многокомпонентной. Документ может принадлежать теме theme1, topic2 et c. У меня недостаточно данных, поэтому я не могу решить проблему с помощью машинного обучения. Поскольку я хочу получить высокоточные документы, я решил проблему с помощью индекса k-gram.

Я рассматриваю данный набор ключевых слов topi c как запросы и строю вокруг него индекс k-gram. Таким образом, у меня есть все ключи как биграммы персонажей и значения как термины, которые содержат биграммы. Эти термины - это термины, присутствующие в документе, которые я хочу классифицировать. После просмотра списка сообщений для каждого ключевого слова topi c я получаю набор терминов-кандидатов и соответствующий им показатель сходства с jaccard.

  1. В пределах топи c Как объединить баллы по jaccard для всех кандидатов?
  2. Во всех темах, как мне решить, к какой теме c относится этот документ?
  3. Как вы думаете, этот подход может дать мне результаты с высокой точностью?

Спасибо.

1 Ответ

0 голосов
/ 16 апреля 2020

Это похоже на проблему мультиклассовой классификации по нескольким меткам. Поскольку спрашивающему удобно использовать подробный лексический подход. Эта статья здесь поможет построить прагматическое c решение.

...