У меня есть набор документов, и я хочу вернуть список кортежей, где у каждого кортежа есть дата данного документа и количество раз, когда данный термин поиска появляется в этом документе. Мой код (ниже) работает, но медленно, и я n00b. Есть ли очевидные способы сделать это быстрее? Любая помощь будет высоко ценится, в основном для того, чтобы я мог лучше изучить кодирование, но также для того, чтобы я мог сделать этот проект быстрее!
def searchText(searchword):
counts = []
corpus_root = 'some_dir'
wordlists = PlaintextCorpusReader(corpus_root, '.*')
for id in wordlists.fileids():
date = id[4:12]
month = date[-4:-2]
day = date[-2:]
year = date[:4]
raw = wordlists.raw(id)
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
count = text.count(searchword)
counts.append((month, day, year, count))
return counts