sample collection =
[['', 'test1.txt', 'test2.txt', 'test3.txt', 'test4.txt'],
['apple', 1, 1, 1, 1],
['banana', 1, 1, 0, 0],
['lemon', 1, 0, 2, 1]]
Перед подготовкой вычисления tf-idf я хотел бы собрать количество «хитов» каждой строки, то есть количество раз, которое не равно нулю.
Я пробовал следующее но я застрял:
def n_calc(frequency_matrix):
non_zero_term_frequencies = []
for list_ in sample_collection:
for value in list_:
if value != 0.0:
non_zero_term_frequencies += 1
else:
pass
idf_calc(sample_collection)
желаемый вывод:
non_zero_term_frequencies: [4, 2, 3]