У меня есть пользователь, который купил 5 книг различного жанра: художественная литература, художественная литература, художественная литература, художественная литература, самопомощь. У меня есть эти данные в кадре данных.
UserID AGEGROUP GENDER genre
600003 0 1 [fiction, fiction, fiction, n-fiction, self-help]
Точно так же у меня есть данные для 15000 пользователей, включая данные о типе купленных книг (бумажные белые, электронные книги и т. Д.), Жанре. Используя эти данные, мне нужно предсказать книги, которые пользователь, скорее всего, купит из другого набора данных (разные книги, но с одинаковыми переменными (тип книги, жанр)).
Мой вопрос - как рассчитать вероятность покупки книги для каждого пользователя. Должен ли я взять режим жанров, тип книги и т. Д. (В приведенном выше DataFrame я буду использовать для художественной литературы, поскольку она повторяется в большинстве случаев вместо 5 жанров) для пользователя, и пытаюсь найти ближайшую книгу в новой набор данных? Или есть какой-то другой подход, который я могу использовать для прогнозирования жанра и типа книги для каждого пользователя.
PS: я новичок в науке о данных и Python