У меня есть набор тем, каждый из которых описан со списком ключевых слов. {Sports:['Ronaldo Messi Zidane','Football Baseball', 'Barcelona Real']...}
Задача состоит в классификации конкретного документа. Классификация может быть также многокомпонентной. Документ может принадлежать теме theme1, topic2 et c. У меня недостаточно данных, поэтому я не могу решить проблему с помощью машинного обучения. Поскольку я хочу получить высокоточные документы, я решил проблему с помощью индекса k-gram
.
Я рассматриваю данный набор ключевых слов topi c как запросы и строю вокруг него индекс k-gram
. Таким образом, у меня есть все ключи как биграммы персонажей и значения как термины, которые содержат биграммы. Эти термины - это термины, присутствующие в документе, которые я хочу классифицировать. После просмотра списка сообщений для каждого ключевого слова topi c я получаю набор терминов-кандидатов и соответствующий им показатель сходства с jaccard.
- В пределах топи c Как объединить баллы по jaccard для всех кандидатов?
- Во всех темах, как мне решить, к какой теме c относится этот документ?
- Как вы думаете, этот подход может дать мне результаты с высокой точностью?
Спасибо.