Невозможно выполнить тематическое моделирование в Databricks с помощью gensim mallet - PullRequest
1 голос
/ 28 мая 2019

Я пытаюсь выполнить моделирование тем для блоков данных, используя оболочку Gesim для Mallet.

В моей локальной системе уже запущен такой же код.

Вот пример кода, который уже работает в моей локальной системе:

import os

os.environ['MALLET_HOME'] = 'C:/Users/Soumadiptya.c/Desktop/mallet-2.0.8'

mallet_path = 'C:/Users/Soumadiptya.c/Desktop/mallet-2.0.8/bin/mallet'

ldamallet_model = gensim.models.wrappers.ldamallet.LdaMallet(mallet_path, corpus=corpus, num_topics=20, id2word=id2word, random_seed = 123)

Вот что я пытаюсь выполнить на своем экземпляре Databricks:

os.environ['MALLET_HOME'] = '/dbfs/FileStore/tables/mallet-2.0.8'

mallet_path_new = '/dbfs/FileStore/tables/mallet-2.0.8/bin/mallet'

new_model = gensim.models.wrappers.ldamallet.LdaMallet(mallet_path_new, corpus=corpus, num_topics=20, id2word=id2word)

Но это происходит со следующей ошибкой:

CalledProcessError: Command '/dbfs/FileStore/tables/mallet-2.0.8/bin/mallet import-file --preserve-case --keep-sequence --remove-stopwords --token-regex "\S+" --input /tmp/e091ce_corpus.txt --output /tmp/e091ce_corpus.mallet' returned non-zero exit status 126

Обратите внимание, что я уже импортировал необходимые файлы молотка в указанные каталоги, и сами пути существуют. Я предполагаю, что проблема в настройке переменных Env внутри блоков данных, но не в состоянии понять. Любая помощь будет высоко ценится.

...