Невозможно посчитать униграммы в википорте - PullRequest
0 голосов
/ 26 апреля 2020

Я написал простую программу, чтобы найти общее количество unigrams в википедии. Код:

import nltk
import re
import string

documents = []
all_tokens = []
with open("AJ/wiki_00", "r", encoding='latin-1') as file:
    text = file.read()

# to remove all xml marks
text = re.sub('<.*>','',text)

punctuationNoPeriod = "[" + re.sub("\.","", string.punctuation) + "]"
text = re.sub(punctuationNoPeriod, "", text)

# tokenized = text.split()
for document in documents:
    tokens = nltk.word_tokenize(document.doc.text)
    all_tokens.extend(tokens)

print("Unigram count is", str(len(all_tokens)))  

Но когда я запускаю его, он возвращается как

Количество униграмм равно 0

Что такое Я здесь скучаю?

...