Я написал простую программу, чтобы найти общее количество unigrams
в википедии. Код:
import nltk
import re
import string
documents = []
all_tokens = []
with open("AJ/wiki_00", "r", encoding='latin-1') as file:
text = file.read()
# to remove all xml marks
text = re.sub('<.*>','',text)
punctuationNoPeriod = "[" + re.sub("\.","", string.punctuation) + "]"
text = re.sub(punctuationNoPeriod, "", text)
# tokenized = text.split()
for document in documents:
tokens = nltk.word_tokenize(document.doc.text)
all_tokens.extend(tokens)
print("Unigram count is", str(len(all_tokens)))
Но когда я запускаю его, он возвращается как
Количество униграмм равно 0
Что такое Я здесь скучаю?