Допустим, у меня есть список из 100 кувшинов MLB и 5 статистических данных для каждого из них.Разница между, например, ERA 3,5 и 3,1 может показаться не слишком похожей на алгоритм наивного сходства, но в бейсболе очень большая.Учитывая, что многие статистические данные об игроках, на которые я смотрю, имеют эту небольшую дисперсию, такую небольшую дисперсию, как лучше всего рассчитать сходство между двумя игроками?
Примерданные могут выглядеть следующим образом:
Player | ERA | Wins | Strikeouts
--------------------------------
A | 3.5 | 15 | 180
B | 3.1 | 12 | 210
C | 3.4 | 13 | 150
Я использовал косинусное сходство, и результаты слишком похожи, вплоть до тысячной доли знака после запятой.