Я пытаюсь решить проблему маркировки topi c в большом наборе данных научных работ. Идея состоит в том, что я могу дать каждой бумаге несколько соответствующих ярлыков.
У меня есть 2 вопроса.
Я знаю, что вы можете выполнять топи c моделирование различными способами, такими как использование LDA и НМФ, но что вы можете сделать, чтобы потом извлечь возможные ярлыки из этих тем?
Кроме того, если я извлек кучу ярлыков, как я могу математически оценить их точность? Есть ли какой-то вид метри c, который может определить, скажем, дисперсию информации, объясняемой меткой в документе, или что-то в этом роде? Как бы я оценил свои этикетки, если бы большая группа людей не провела качественный анализ?