Я пытаюсь воссоздать этот урок на PySpark: приложение Doc2Vec.
В какой-то момент мне нужно преобразовать определенный пользователем генератор Python в PySpark, как показано ниже.
Какой лучший / правильный способ сделать это?
def read_corpus(df, tokens_only=False):
for i, l in enumerate(df):
if tokens_only:
yield gensim.utils.simple_preprocess(l)
else:
yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(l), [i])