Мера сходства только для двух значений, уравнение масштабирования, с возможным значением 0 (рекомендация по элементам musi c) - PullRequest
0 голосов
/ 04 февраля 2020

Я сравниваю musi c для рекомендательной системы. У каждого художника есть 15 настроений, общая стоимость всех 15 настроений равна 100%. Пример сравнения между списком воспроизведения и рекомендацией исполнителя The Cure:

Список воспроизведения A В среднем: Нежность 5,93%, Превосходство 2,27%, Мирность 6, 83%, Ностальги c 7,23%, Чудо 9,13%, Причудливый: 12,20%, Механический 2,87%, Сила 11,80%, Радостный 9,80%, Страх 2,73%, Напряжение 8,20%, отталкивающий 1,67%, летаргия 1,67%, грусть 2,07%, церебральный 13,60%

Средние показатели лечения: Нежность 14,00%, Превосходство 11,50%, Спокойствие 11,50%, Ностальги c 5%, Чудо 4%, Необычные: 8%, Механические 0%, Сила 2%, Радостные 3,50%, Страх 7,50%, Напряжение 10 , 50%, Отталкивающий 0%, Летаргия 5,50%, Печаль 10%, Церебральный 7%

Это оставляет меня с показателем сходства косинусов 73%. Итак, в моем системном интерфейсе musi c Recommender я пишу пояснения к следующим рекомендациям:

«Boys Don't Cry by The Cure - это 73% совпадение для плейлиста A на основе настроений».

Однако впоследствии я хотел бы включить краткий подробный обзор c, показывающий самые похожие и наименее похожие настроения, подобные этому, и я не уверен в том, что лучше выясните, какие два верхних настроения должны быть показаны:

The Cure vs Playlist A:

Most Similar Moods

0% против 1,67% отталкивающих

наименее похожих настроений

2% против 11,80% мощности

Если я использую косинусное сходство для сравнения двух значений, например Отталкивающий, 1,67% против 0%, он не может вычислить , поскольку одно из значений 0 . Поэтому вместо этого я попытался просто взять сумму абсолютного значения двух процентов настроения. Очевидно, что расстояние между 1,67% и 0% составляет 1,67 . Мощность 9,80, так как это расстояние между 11,80 и 2%.

Очевидно, чем меньше число, тем ближе значения друг к другу, но я не уверен, что это лучший способ для сравнения . Хотя пользователю может быть важно знать, что и плейлист, и рекомендуемый исполнитель имеют низкое количество отталкивающего настроения, столь же важно знать противоположное, довольно большое количество сходных настроений.

Допустим, я хотел сравнить следующие значения для плейлиста B и у меня есть рекомендация исполнителя Ингрид Майклсон:

Нежность: плейлист B - 33,33% / Ингрид Майклсон - 21,6%

Церебральный: Плейлист B - 2,13% / Ингрид Майклсон - 7,5%.

Сумма абсолютных значений : Нежность 11,73 и Церебральный 5, 37 . Тогда можно предположить, что плейлисты имеют больше схожих церебральных настроений, чем настроений нежности. Но разве я не могу использовать какое-то уравнение масштабирования , поскольку, очевидно, чем больше число, тем больше расстояния между ними? Я думаю, что для пользователя важнее понять, что нежность настроения имеет высокий процент как для плейлиста, так и для исполнителя. Может быть? Но мне нужно научное c уравнение, чтобы подтвердить это.

ВОПРОС!

Поскольку все числа являются процентами из 100, значит ли это, что они должны быть одинаково взвешенный, и что для меня вполне допустимо использовать сумму абсолютных значений или есть какое-то другое уравнение, которое я могу использовать, поскольку большинство мер подобия, таких как косинус / евклидово расстояние, Пирсон и др. c, кажется, работают лучше всего для несколько точек данных, где ни одно из значений не равно 0, или для двоичных данных. Должны ли значения как-то взвешиваться? Спасибо!

Возможно, последний пример был плохим, но вот мое общее мнение:

  • (A) Значения 7% и 14% имеют расстояние 7 между ними, но 14 на 50% больше, чем 7.

  • (B) Значения 10% и 20% имеют расстояние 10 между ними, но 20 также на 50% больше 10.

Вместо того, чтобы думать, что A ближе / важнее, чем B, разве они не должны быть одинаково взвешены / иметь одинаковую важность?

...