Automati c Topi c Метрика оценки маркировки - PullRequest
1 голос
/ 28 марта 2020

Я пытаюсь решить проблему маркировки topi c в большом наборе данных научных работ. Идея состоит в том, что я могу дать каждой бумаге несколько соответствующих ярлыков.

У меня есть 2 вопроса.

Я знаю, что вы можете выполнять топи c моделирование различными способами, такими как использование LDA и НМФ, но что вы можете сделать, чтобы потом извлечь возможные ярлыки из этих тем?

Кроме того, если я извлек кучу ярлыков, как я могу математически оценить их точность? Есть ли какой-то вид метри c, который может определить, скажем, дисперсию информации, объясняемой меткой в ​​документе, или что-то в этом роде? Как бы я оценил свои этикетки, если бы большая группа людей не провела качественный анализ?

1 Ответ

0 голосов
/ 08 апреля 2020

Самый простой способ - использовать верхние k слов в качестве меток. Более сложные методы включают создание меток кандидатов и ранжирование меток кандидатов. Об этом говорится во многих связанных с этим работах: топи c:

  1. Алетрас, Николаос и Марк Стивенсон. «Маркировка тем с использованием неконтролируемых графовых методов». ACL. 2014
  2. Бхатия, Шрей, Джей Хан Лау и Тимоти Болдуин. «Automati c маркировка тем с нейронными вложениями». COLING (2016).
  3. Hingmire, Swapnil, et al. «Классификация документов по маркировке topi c». SIGIR. 2013

Во всех вышеперечисленных документах есть разделы, в которых обсуждается, как оценивать этикетки.

...