Question

Я написал простую программу, чтобы найти общее количество unigrams в википедии. Код:

import nltk
import re
import string

documents = []
all_tokens = []
with open("AJ/wiki_00", "r", encoding='latin-1') as file:
    text = file.read()

# to remove all xml marks
text = re.sub('<.*>','',text)

punctuationNoPeriod = "[" + re.sub("\.","", string.punctuation) + "]"
text = re.sub(punctuationNoPeriod, "", text)

# tokenized = text.split()
for document in documents:
    tokens = nltk.word_tokenize(document.doc.text)
    all_tokens.extend(tokens)

print("Unigram count is", str(len(all_tokens)))

Но когда я запускаю его, он возвращается как

Количество униграмм равно 0

Что такое Я здесь скучаю?

Невозможно посчитать униграммы в википорте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Невозможно посчитать униграммы в википорте

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы