Если ваш документ уже представлен в виде текстового файла с одним предложением на строку, то во многих примерах, включенных в gensim (или в другом месте), показано, как обрабатывать такой корпус.
Например, в каталоге docs/notebooks
есть вводная записная книжка Doc2Vec в комплекте с gensim
, которую вы также можете просмотреть онлайн в репозитории проекта github:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb
Его ячейка (3) показывает, а ячейка (4) использует функцию для построчного чтения файла и превращения его в TaggedDocument
тексты, необходимые для модели.