Я очень новичок в DataScience / Pandas в целом. Я в основном следовал этому руководству о рекомендательных системах.
Основное отличие, которое у меня есть, состоит в том, что мои данные mov ie начинаются с одной таблицы, и я хочу найти наиболее похожие фильмы с указанным c mov ie из этого списка.
Исходный фрейм данных выглядит следующим образом:
, который я затем преобразовываю в разреженный фрейм данных, где могут отображаться пользовательские оценки для каждого mov ie:
rating_with_totalRatingCount = rating_with_totalRatingCount.drop_duplicates(['userID', 'movieTitle'])
ratingPivot = rating_with_totalRatingCount.pivot(index = 'movieTitle', columns = 'userID', values = 'userRatingScore').fillna(0).T
И, наконец, я применяю правило точечного произведения, чтобы получить предсказания. Фрейм данных:
U, sigma, Vt = svds(ratingPivot, k = 50)
sigma = np.diag(sigma)
all_user_predicted_ratings = np.dot(np.dot(U, sigma), Vt) + user_ratings_mean.values.reshape(-1, 1)
preds_df = pd.DataFrame(all_user_predicted_ratings, columns = ratingPivot.columns)
У меня вопрос, как я могу использовать этот прогнозный фрейм данных, чтобы дать кому-то фильмы, наиболее похожие на конкретный c mov ie in Python?