Вы повторяете слова в каждом документе много раз - по одному разу для каждого слова в total_vocabulary
.
Было бы намного быстрее, если бы вы перебирали слова в каждом документе просто один раз , и вы можете сделать это, переставив l oop, а также превратив total_vocabulary
в набор вместо списка , поскольку поиск по множеству происходит намного быстрее.
vocab_set = set(total_vocabulary)
for document in documents:
for word in document:
if word in vocab_set:
counter = counter + 1