Создание корпуса из Wiki DumpFile с использованием Python в NLTK - PullRequest
0 голосов
/ 29 мая 2019

Я пытаюсь создать корпус из Wiki DumpFile.

Я скачал файл Wiki enwiki-latest-pages-article.xml.bz2, но когда я запускаю код (скрипт), он выдает мне некоторые ошибки.

Я относительно новичок в этом, но я не понимаю, как следует размещать код Python и вики-файл (те же папки, какая папка и т. Д.).

Я запустил эту команду: make_wiki_corpus enwiki-latest-pages-articles.xml.bz2 wiki_en.txt

  • make_wiki_corpus - мой сценарий на Python
  • enwiki-latest-pages-articles.xml.bz2 - это база данных википедии
  • wiki_en.txt - текстовый файл, в который я хочу написать.
import sys
from gensim.corpora import WikiCorpus

def make_corpus(in_f, out_f):

    """Convert Wikipedia xml dump file to text corpus"""

    output = open(out_f, 'w')
    wiki = WikiCorpus(in_f)

    i = 0
    for text in wiki.get_texts():
        output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
        i = i + 1
        if (i % 10000 == 0):
            print('Processed ' + str(i) + ' articles')
    output.close()
    print('Processing complete!')


if __name__ == '__main__':

    if len(sys.argv) != 3:
        print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
        sys.exit(1)
    in_f = sys.argv[1]
    out_f = sys.argv[2]
    make_corpus(in_f, out_f)

Я выполнил команду, содержащую этот код, находящуюся в том же файле, что и файл enwiki-latest-pages-article.xml.bz2, но в командной строке я получаю некоторые сообщения об ошибках, такие как:

line 636 in \__init__  
line 92 in __init__  
FileNotFound Eroor : [Errorno21] No such file or directory "enwiki-latest-pages-articles.xml.bz2"
...