Сборка корпуса по Википедии: ModuleNotFoundError: Нет модуля с именем 'gensim' - PullRequest
0 голосов
/ 03 мая 2020

Я копирую простой сценарий Python с помощью Создание текстового корпуса Википедии для обработки естественного языка для создания корпуса путем удаления всей разметки Википедии из статей, используя gensim. Это код:

"""
Creates a corpus from Wikipedia dump file.
Inspired by:
https://github.com/panyang/Wikipedia_Word2vec/blob/master/v1/process_wiki.py
"""

import sys
from gensim.corpora import WikiCorpus

    def make_corpus(in_f, out_f):

    """Convert Wikipedia xml dump file to text corpus"""

    output = open(out_f, 'w')
    wiki = WikiCorpus(in_f)

    i = 0
    for text in wiki.get_texts():
        output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
        i = i + 1
        if (i % 10000 == 0):
            print('Processed ' + str(i) + ' articles')
    output.close()
    print('Processing complete!')


if __name__ == '__main__':

    if len(sys.argv) != 3:
        print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
        sys.exit(1)
    in_f = sys.argv[1]
    out_f = sys.argv[2]
    make_corpus(in_f, out_f)

В любом случае, я получил ошибку:

ModuleNotFoundError: No module named 'gensim'

, хотя я установил пакет gensim:

python3 -m pip install gensim

EDIT . Если я пытаюсь с

pip install -U gensim

, я получаю ошибку

 ImportError: cannot import name 'SourceDistribution' from 
 'pip._internal.distributions.source' (C:\Users\Standard\Anaconda3\lib\site- 
 packages\pip\_internal\distributions\source\__init__.py)

1 Ответ

1 голос
/ 03 мая 2020

В вашей системе не установлен модуль gensim.

pip install -U gensim

Или загрузите его с https://pypi.python.org/pypi/gensim.

gensim зависит на scipy и numpy. Они должны быть установлены до установки gensim.

В pip 20.0.0 есть ошибка. Либо обновите до 20.0.1, используя:

python get-pip.py

, либо понизьте до 19.3.1.

python get-pip.py pip==19.3.1
...