В настоящее время я использую пользовательский корпус, который содержит документы с тегами
class ClassifyCorpus(object):
def __iter__(self):
with open(train_data) as fp:
for line in fp:
splt = line.split(':')
id = splt[0]
text = splt[1].replace('\n', '')
yield TaggedDocument(text.split(), [id])
Глядя на исходный код Brown Corpus, можно увидеть, что он просто читает из каталога и обрабатывает теги документов для меня.
Я проверил это и не увидел улучшения в скорости тренировки.