DebNa 05 сентября 2018 25

Конвертировать Python Generators в PySpark

DebNa / 05 сентября 2018

Я пытаюсь воссоздать этот урок на PySpark: приложение Doc2Vec.

В какой-то момент мне нужно преобразовать определенный пользователем генератор Python в PySpark, как показано ниже.

Какой лучший / правильный способ сделать это?

def read_corpus(df, tokens_only=False):
    for i, l in enumerate(df):
        if tokens_only:
            yield gensim.utils.simple_preprocess(l)
        else:
            yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(l), [i])

...