Это действительно зависит от документа. Документом может быть книга на 700 страниц или одно предложение. Ваш k также будет зависеть от документа, я думаю, вы имеете в виду количество тем? Если ваш документ полностью содержит темы из Википедии, 1500, может быть уместно, если ваш документ представляет собой список комментариев о фильмах, тогда может быть уместно 20 тем. Оптимизация этого числа может быть выполнена методом локтя check 17 .
Семя может быть довольно случайным, это всего лишь ветвь, поэтому ваши результаты могут быть воспроизведены - оно запускается, если вы оставите его пустым. Я бы сказал, попробуй и проверь свою согласованность, посмотри на свои темы и, если все выглядит правильно, тогда ты можешь обучить LDA на одном документе. Один документ должен обрабатываться довольно быстро.
Вот пример использования параметров семени в python. Мой набор данных составляет 1 048 575 строк, обратите внимание, что начальное число намного выше:
ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000,
random_seed = 569356958)