Есть ли хороший способ сохранить Spacy Do c в Pandas данных - PullRequest
0 голосов
/ 14 января 2020

Я нахожусь в процессе выяснения этого, но хотел документировать переполнение стека, так как это было нелегко найти. (Также, надеюсь, кто-то может ответить на этот вопрос раньше, чем я).

df.loc[:,'corpus_spacy_doc'] = df['text_corpus'].apply(lambda cell: nlp(cell))

Так что теперь я могу делать все виды nlp-файлов для corpus_spacy_do c, что здорово. Но я хотел бы иметь хороший способ сохранить состояние этого кадра данных, поскольку df.to_csv () , очевидно, не будет работать. Я пытался понять, возможно ли это с паркетом, но я не думаю, что это так.

На данный момент, похоже, мое лучшее решение - использовать простую методику сериализации списка документов (https://spacy.io/usage/saving-loading) и загрузка с pandas dataframe позже.

Подводя итог, я теперь хочу Pythoni c способ сделать что-то вроде

df.to_something(fname = fname)

Кто-нибудь еще ушел? через это или есть хороший ответ?


1 Ответ

0 голосов
/ 14 января 2020

Так что это было довольно легко и, кажется, решило то, что я делаю с обычной df.to_pickle ()

...