Оценка когерентности (u_mass) -18 - это хорошо или плохо? - PullRequest
0 голосов
/ 27 мая 2020

Я прочитал этот вопрос ( Оценка когерентности 0,4 - это хорошо или плохо? ) и обнаружил, что оценка согласованности (u_mass) составляет от -14 до 14. Но когда я провел свои эксперименты, я получил оценку -18 для u_mass и 0,67 для c_v. Интересно, как моя оценка u_mass выходит за пределы диапазона (-14, 14)?

Обновление: я использовал библиотеку gensim и просмотрел количество тем от 2 до 50. Для u_mass он начинается с 0 до самого низкого отрицательный момент и повернуть немного назад, как перевернутая версия c_v.

Ответы [ 2 ]

0 голосов
/ 27 мая 2020

Я сослался на два источника и обнаружил сходство, которое может прояснить мои сомнения: https://www.os3.nl/_media/2017-2018/courses/rp2/p76_report.pdf

https://amp.reddit.com/r/learnmachinelearning/comments/9bcr77/coherence_score_u_mass/

Я считаю что для u_mass график будет перевернутым от c_v, самая низкая отрицательная точка - лучшая. Конечно, если вы используете gensim.

Here is the figure for training the number of topics from 2 to 50

0 голосов
/ 27 мая 2020

Согласно математической формуле для оценки согласованности u_mass, приведенной в исходной статье .

Если u_mass ближе к значению 0 означает идеальную согласованность и колеблется в любую сторону от значения 0, зависит от количество выбранных тем и тип данных, используемых для выполнения кластеризации topi c. Лучший способ оценить u_mass - построить кривую между u_mass и различными значениями K (количество тем). Выберите K со значением u_mass, близким к 0.

Вы можете обратиться к этой ссылке , которая предоставляет python фрагмент кода для построения кривой между различными значениями K и c_v. Здесь вы можете заменить c_v на u_mass coherence metri c.

Надеюсь, это объяснение поможет.

...