Я новичок в науке о данных и в настоящее время изучаю различные методы, которые я могу использовать с Python. В настоящее время я опробую его с помощью API Spotify для своих собственных плейлистов.
Цель состоит в том, чтобы найти самые разные функции между двумя разными списками воспроизведения.
Мой вопрос заключается в том, каков наилучший способ определить наиболее отличающиеся особенности между этими двумя списками воспроизведения?
Я начал с получения всех треков в каждом плейлисте и соответствующих им функций. Затем я вычислил среднее значение для каждой из функций.
Вот DataFrame, с которым я закончил. Значения данных являются средними значениями всех функций дорожек для их соответствующего списка воспроизведения
playlist1 playlist2
--------------------
danceability | 0.667509 0.592140
energy | 0.598873 0.468020
acousticness | 0.114511 0.398372
valence | 0.376920 0.287250
instrumentalness | 0.005238 0.227783
speechiness | 0.243587 0.088612
Я немного покопался и нашел две общие процедуры:
1. Евклидово расстояние
2. Косинус сходство
Я по какой-то причине не мог обернуть голову, какую из них использовать, и приступил к вычислению абсолютной разницы между каждой функцией. Простое вычитание, потому что это имело смысл для меня интуитивно. Элемент с наибольшим отличием будет «самым непохожим».
При таком подходе я в итоге использовал эти результаты и пришел к выводу, что энергия и акустичность являются наиболее несхожими
playlist1 playlist2 absoluteDifference
----------------------------------------------------
energy |0.871310 0.468020 0.403290
acousticness |0.041479 0.398372 0.356893
valence |0.501890 0.287250 0.214640
instrumentalness |0.049012 0.227783 0.178771
danceability |0.531071 0.592140 0.061069
speechiness |0.109587 0.088612 0.020975
Является ли моя интуиция правильной / неправильной и когда мы будем использовать вышеупомянутые техники? Будет ли какой-либо из этих методов применим в такой ситуации?
В конце концов, я хочу взять две верхние отличия и сделать их моей осью для KNN. Моя интуиция заключается в том, что я могу определить самые разные особенности двух плейлистов, у меня будут более четкие и четкие особенности плейлиста, и я могу более точно предсказать, к какой песне должен принадлежать плейлист.