Я пытаюсь вычислить значения IDF для векторизации TF-IDF. Я пытаюсь подсчитать количество документов, которые содержат каждое уникальное слово вокаба.
Это корпус:
corpus = ['это первый документ', 'этот документ второй документ ',' и это третий ',' это первый документ ']
мой код:
...
значения IDF:
for i in range(0,len(corpus)):
o=corpus[i].split(' ')
c=0
for wor in n:
for k in range(0,len(corpus)):
if wor in o[k]:
c=c+1
print(wor, c)
...
Вывод получен: и 0 документ 0 первый 1 равен 3 один 3 второй 3 4 третий 4 этот 5 и 0 документ 1 первый 1 равен 3 один 3 второй 3 4 третий 4 этот 5 и 1 документ 1 первый 1 является 3 один 3 второй 3 4 4 третий 4 этот 5 и 0 документ 0 первый 1 является 3 один 3 второй 3 4 третий 4 этот 5
Вывод, который мне нужен: это 4 - это 4, 4, первые 2 документа, 3, 1 и 1, третий 1, один 1