У меня есть пользователи и ресурсы.Каждый ресурс описывается набором функций, и каждый пользователь связан с различным набором ресурсов.В моем конкретном случае ресурсы представляют собой веб-страницы, и в них содержится информация о месте посещения, времени посещения, количестве посещений и т. Д., Которые каждый раз привязываются к определенному пользователю.
Я хочу получить показатель сходства между моими пользователями в отношении этих функций, но я не могу найти способ объединить функции ресурса вместе.Я сделал это с помощью текстовых функций, так как можно добавлять документы вместе, а затем извлекать функции (скажем, TF-IDF), но я не знаю, как действовать с этой конфигурацией.
Чтобы бытькак можно яснее, вот что у меня есть:
>>> len(user_features)
13 # that's my number of users
>>> user_features[0].shape
(2374, 17) # 2374 documents for this user, and 17 features
Я могу получить матрицу подобия документов , используя евклидовы расстояния, например:
>>> euclidean_distance(user_features[0], user_features[0])
Но я не знаю, как сравнить пользователей друг с другом.Я должен каким-то образом объединить функции вместе, чтобы получить матрицу N_Users X N_Features
, но я не знаю, как.
Есть какие-нибудь советы о том, как действовать?о функциях, которые я использую:
Функции, которые у меня есть, не полностью исправлены.Пока что у меня есть 13 различных функций, которые уже объединены из «представлений».У меня есть стандартное отклонение, среднее и т. Д. Для каждого из представлений, чтобы иметь что-то «плоское», чтобы можно было их сравнить.У меня есть одна особенность: было ли местоположение изменено с момента последнего просмотра?А как насчет часа назад?Два часа назад?