У меня есть набор данных, который содержит информацию о рынках. Набор данных содержит следующее: объем рынка, количество покупок, средние покупки за все дни, средние покупки за все дни и по всем рынкам, а также средний процент того, насколько дешевле этот рынок по сравнению со всеми рынками.
Данные выглядят примерно так:
market volume numPurchases transDate avgDailyPurchases AvgDailyPurchasesAll
JFK 500 32 20190102 50 75
JFK 500 60 20190103 50 75
ATL 450 40 20190102 40 75
avgPercentCheaperThanAll
.22
.22
.75
То, что я хотел бы сделать, это ранжировать рынки. Верхний рынок определяется, где avgDailyPurhcases
является высоким относительно его объема, а avgPercentCheaperThanAll
также является высоким. Таким образом, в приведенных выше данных ATL будет лучшим рынком, чем JFK, хотя у JFK больше avgDailyPurchases
, ATL намного дешевле, чем на всех рынках.
Я попытался использовать формулу IMDB, где они ранжируют фильмы, но вместо этого я использовал собственное представление переменных, например:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
v = volume of market
m = minimum volume required to be in the list
R = avgDailyPurchases
C = AvgDailyPurchasesAll
Это дает мне почти хороший список, но в нем отсутствует один важный фактор: avgPercentCheaperThanAll. Как я могу добавить это в уравнение, чтобы получить лучшие результаты?