Зачем использовать TaggedBrownCorpus при обучении gensim doc2vec - PullRequest
0 голосов
/ 29 ноября 2018

В настоящее время я использую пользовательский корпус, который содержит документы с тегами

class ClassifyCorpus(object):
    def __iter__(self):
        with open(train_data) as fp:
            for line in fp:
                splt = line.split(':')
                id = splt[0]
                text = splt[1].replace('\n', '')
                yield TaggedDocument(text.split(), [id])

Глядя на исходный код Brown Corpus, можно увидеть, что он просто читает из каталога и обрабатывает теги документов для меня.

Я проверил это и не увидел улучшения в скорости тренировки.

1 Ответ

0 голосов
/ 29 ноября 2018

Вы не должны использовать TaggedBrownCorpus.Это просто демонстрационный класс для чтения конкретного крошечного демонстрационного набора данных, который включен в gensim для юнит-тестов и вводных уроков.

Он делает все разумно для этого формата данных на диске, но любой другой эффективный способ передачи ваших данных в повторяющуюся итерируемую последовательность TaggedDocument -подобных объектов так же хорош.

Так что не стесняйтесь использовать его в качестве модели, если это поможет, но не рассматривайте это как требование или «лучшую практику».

...