Это то, что вы каждый раз добавляете новый список, содержащий одно предложение?corpus.append([sentence])
.Вам нужно подать Word2Vec серию предложений, но не обязательно предложения, собранные документом.Мне также не ясно, что находится в вашем df, но вы уже разбили предложения на токены?
Мой класс генератора, который я использовал ранее для Word2Vec ...
from nltk.tokenize import sent_tokenize
from gensim.utils import simple_preprocess
class MySentences(object):
def __init__(self, docs):
self.corpus = docs
def __iter__(self):
for doc in self.corpus:
doc_sentences = sent_tokenize(doc)
for sent in doc_sentences:
yield simple_preprocess(sent) # yields a tokenized
sentence ['like','this','one','.']
sentences = MySentences(df['text'].tolist())
model = gensim.models.Word2Vec(sentences, min_count=5, workers=8, size=300, sg=1)