сделать тематическое моделирование Маллет стабильным - PullRequest
0 голосов
/ 07 апреля 2019

Я использую инструмент моделирования тем для молотка, и у меня есть некоторые трудности, чтобы сделать его стабильным (темы, которые я получаю, не кажутся очень логичными).

Я работал с вашим уроком и с этим: https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet и у меня есть несколько вопросов по этому поводу:

  1. Существуют ли передовые практики для того, чтобы эта модель работала?Кроме команды оптимизации (что для этого подходит)?Что такое хорошее число для команды итераций?
  2. Я импортирую свои данные с помощью команды import dir.В этом каталоге находятся мои файлы.Имеет ли значение, если эти файлы содержат текст с новыми строками или просто очень длинную строку?
  3. Я читал о модели hLDA.Когда я попытался запустить его, я увидел, что единственным выводом является вывод state.txt, который не очень ясен.Я рассчитываю на вывод, такой как модель моделирования темы (topic_keys.txt, doc_topics.txt), как я могу получить их?
  4. Когда мне следует использовать hLDA, а не моделирование темы?

Большое спасибо за вашу помощь!

1 Ответ

0 голосов
/ 12 апреля 2019

Некоторые ссылки на хорошие практики в тематическом моделировании: Уход и кормление тематических моделей с Джорданом Бойд-Грабером и Дейвом Ньюманом и Прикладное тематическое моделирование с Джорданом Бойд-Грабером и ЮенингомХу.

Для оптимизации гиперпараметра --optimize-interval 20 --optimize-burn-in 50 должно быть в порядке, кажется, он не очень чувствителен к конкретным значениям.Сходимость для выборки Гиббса трудно оценить, 1000 итераций по умолчанию следует интерпретировать как «достаточно большое число, что, вероятно, все в порядке», а не как конкретное значение.

Если вы читаете отдельные документы из файлов в каталогелинии не имеют значения.Если до удаления стоп-слова документы длиннее, чем около 1000 токенов, рассмотрите возможность разбиения их на более мелкие сегменты.

hLDA включен только потому, что, похоже, люди этого хотят, я не рекомендую его для каких-либо целей.

...