Добрый день,
У меня есть вопрос, очень простой вопрос. Допустим, у меня есть набор данных с пользовательскими рейтингами фильма в строках и фильмов в столбцах. Мне нужно найти фильмы, которые происходят с фильмом2. Например, для фильма1 процент людей, которые оценили фильм1, также оценил фильм1, равный 0,5; число людей, которые смотрели оба фильма: фильм1 и фильм2 - 1, деленное на общее число людей, которые посмотрели фильм и оценили его2.
Dataset:
import numpy as np
df = np.array([['','Movie1','Movie2','Movie3'],
['User1',1,0,2],
['User2',2,4,4],
['User3',4,0,4],
['User4',0,2,4]])
print(pd.DataFrame(data=df[1:,1:],
index=df[1:,0],
columns=df[0,1:]))
В строке ниже указано количество пользователей, которые оценили фильм. Мой вопрос заключается в том, как добавить еще одно условие, которое также проверяет, не является ли соответствующая ячейка в col movie2 0 - 0, означает, что человек не видел фильм, он был помечен как отсутствующее значение в исходном наборе данных:
df.apply(lambda x: x[x!=0]).count(axis=0)