Тема моделирования с помощью молотка - PullRequest
2 голосов
/ 03 сентября 2010

Я пытаюсь использовать тематическое моделирование с Маллетом, но у меня есть вопрос.

Как узнать, когда мне нужно перестроить модель? Например, у меня есть такое количество документов, которые я сканировал из Интернета, используя моделирование тем, предоставленное Маллетом, я мог бы создавать модели и выводить из них документы. Но со временем, с новыми данными, которые я просканировал, могут появиться новые предметы. В таком случае, как я узнаю, должен ли я перестроить модель с начала до текущего?

Я думал об этом для документов, которые я сканировал каждый месяц. Может кто-нибудь посоветовать, пожалуйста?

Итак, моделирование тем больше подходит для текста в фиксированном количестве тем (входной параметр k, количество тем). Если нет, то как мне определить, какой номер использовать?

1 Ответ

3 голосов
/ 17 сентября 2010

Ответы на ваши вопросы в значительной степени зависят от типа данных, с которыми вы работаете, и размера корпуса.

Что касается частоты, я боюсь, что вам просто нужно оценить, как часто ваши данные изменяются значимым образом, и реконструировать с такой скоростью. Вы можете начать с недели и посмотреть, приведут ли новые данные к существенно другой модели. Если нет, попробуйте две недели и так далее.

Количество выбранных тем определяется тем, что вы ищете в модели. Чем выше число, тем более детализированы результаты. Если вам нужен широкий обзор того, что находится в вашем корпусе, вы можете выбрать, скажем, 10 тем. Для более детального просмотра вы можете использовать 200 или другое подходящее большое число.

Надеюсь, это поможет.

...