Создание категорий из помеченного корпуса - PullRequest
0 голосов
/ 22 ноября 2018

У меня есть набор помеченных документов, представляющих список категорий.Теги являются свободным текстом и имеют разные уровни детализации.Теги присваиваются создателем документа.

Например:

Doc1: 'data science', 'python'
Doc2: 'business', 'microsoft', 'powerpoint'
Doc3: 'microsoft', 'excel'
Doc4: 'python'
Doc5: 'programming', 'python', 'java'

Я бы хотел создать категории (одноуровневые или многоуровневые) из них.Что-то вроде следующего на 3-х уровнях:

business --> microsoft --> excel
business --> microsoft --> powerpoint
programming --> python
programming --> java
data science --> python

В данный момент я изучаю путь методов LDA - но я чувствую, что он теряет часть информации, доступной в первоначальном корпусе.Можно ли это получить, просто наблюдая за распределением самих тегов?

В примечании к каждому документу также есть заголовок, который потенциально может использоваться для категоризации, но современные теги, похоже, хорошо отражают семантику.

Любые идеи / предложения высоко ценятся!

...