Как я могу установить случайное начало тематической модели, используя молоток в gensim? - PullRequest
0 голосов
/ 11 октября 2018

Я пытался сохранить результаты моделирования тем стабильными, используя mallet в качестве библиотеки в gensim.Тем не менее, я обнаружил, что молоток может установить случайное начальное значение, но я не вижу никаких параметров в gensim для его установки.

Ответы [ 2 ]

0 голосов
/ 20 апреля 2019

У меня была такая же проблема, но использовать последнюю версию gensim немного сложнее.Как сказал Крис , в новой версии он реализован, но запускать его было проблематично для меня.Обязательно выполните следующие действия, так как вы можете использовать старую оболочку:

  1. conda install -c conda-forge gensim
  2. pip install --upgrade gensim

Второй шаг выполняетзадание и просто его установка не обновят gensim, поскольку у меня возникла проблема с ним.

Следующие ссылки содержат дополнительную информацию по вашему вопросу:

Установка Gensim

Обертка для молотка

0 голосов
/ 10 января 2019

Это было добавлено в упаковщик ldamallet.py

    def __init__(self, mallet_path, corpus=None, num_topics=100, alpha=50, id2word=None, workers=4, prefix=None,
             optimize_interval=0, iterations=1000, topic_threshold=0.0, random_seed=0):
    """

    Parameters
    ----------
    mallet_path : str
        Path to the mallet binary, e.g. `/home/username/mallet-2.0.7/bin/mallet`.
    corpus : iterable of iterable of (int, int), optional
        Collection of texts in BoW format.
    num_topics : int, optional
        Number of topics.
    alpha : int, optional
        Alpha parameter of LDA.
    id2word : :class:`~gensim.corpora.dictionary.Dictionary`, optional
        Mapping between tokens ids and words from corpus, if not specified - will be inferred from `corpus`.
    workers : int, optional
        Number of threads that will be used for training.
    prefix : str, optional
        Prefix for produced temporary files.
    optimize_interval : int, optional
        Optimize hyperparameters every `optimize_interval` iterations
        (sometimes leads to Java exception 0 to switch off hyperparameter optimization).
    iterations : int, optional
        Number of training iterations.
    topic_threshold : float, optional
        Threshold of the probability above which we consider a topic.
    random_seed: int, optional
        Random seed to ensure consistent results, if 0 - use system clock.

    """
...