Question

Я пытаюсь решить проблему маркировки topi c в большом наборе данных научных работ. Идея состоит в том, что я могу дать каждой бумаге несколько соответствующих ярлыков.

У меня есть 2 вопроса.

Я знаю, что вы можете выполнять топи c моделирование различными способами, такими как использование LDA и НМФ, но что вы можете сделать, чтобы потом извлечь возможные ярлыки из этих тем?

Кроме того, если я извлек кучу ярлыков, как я могу математически оценить их точность? Есть ли какой-то вид метри c, который может определить, скажем, дисперсию информации, объясняемой меткой в документе, или что-то в этом роде? Как бы я оценил свои этикетки, если бы большая группа людей не провела качественный анализ?

Matthew · Answer 1 · 08 апреля 2020

Самый простой способ - использовать верхние k слов в качестве меток. Более сложные методы включают создание меток кандидатов и ранжирование меток кандидатов. Об этом говорится во многих связанных с этим работах: топи c:

Алетрас, Николаос и Марк Стивенсон. «Маркировка тем с использованием неконтролируемых графовых методов». ACL. 2014
Бхатия, Шрей, Джей Хан Лау и Тимоти Болдуин. «Automati c маркировка тем с нейронными вложениями». COLING (2016).
Hingmire, Swapnil, et al. «Классификация документов по маркировке topi c». SIGIR. 2013

Во всех вышеперечисленных документах есть разделы, в которых обсуждается, как оценивать этикетки.

Automati c Topi c Метрика оценки маркировки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Automati c Topi c Метрика оценки маркировки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы