У меня есть набор помеченных документов, представляющих список категорий.Теги являются свободным текстом и имеют разные уровни детализации.Теги присваиваются создателем документа.
Например:
Doc1: 'data science', 'python'
Doc2: 'business', 'microsoft', 'powerpoint'
Doc3: 'microsoft', 'excel'
Doc4: 'python'
Doc5: 'programming', 'python', 'java'
Я бы хотел создать категории (одноуровневые или многоуровневые) из них.Что-то вроде следующего на 3-х уровнях:
business --> microsoft --> excel
business --> microsoft --> powerpoint
programming --> python
programming --> java
data science --> python
В данный момент я изучаю путь методов LDA - но я чувствую, что он теряет часть информации, доступной в первоначальном корпусе.Можно ли это получить, просто наблюдая за распределением самих тегов?
В примечании к каждому документу также есть заголовок, который потенциально может использоваться для категоризации, но современные теги, похоже, хорошо отражают семантику.
Любые идеи / предложения высоко ценятся!