У меня есть набор данных, который содержит среднюю прибыль и количество выборок для каждой точки данных, больше информации нет.
Я хотел бы сравнить точки данных и решить, на какой из них сосредоточиться больше.Однако я не уверен, как принять во внимание размер выборки.В качестве упрощенного примера я написал код на Python ниже.
import matplotlib.pyplot as plt; plt.rcdefaults()
import numpy as np
objects = ('A', 'B', 'C', 'D')
y_pos = np.arange(len(objects))
sample_sizes = [10,5,20,15]
sample_avgProfit = [12,14,2,4]
weighted_mean = 0
for i in range (len(sample_sizes)):
weighted_mean += sample_sizes[i]/sum(sample_sizes)*sample_avgProfit[i]
weighted_proportion = []
weighted_sum = sum([a*b for (a,b) in zip(sample_sizes,sample_avgProfit)])
for i in range (len(sample_sizes)):
weighted_proportion.append(sample_sizes[i]*sample_avgProfit[i]/weighted_sum)
plt.bar(y_pos, sample_avgProfit, align='center', alpha=0.5)
plt.xticks(y_pos, objects)
plt.title('avg profit')
plt.show()
plt.bar(y_pos, weighted_proportion, align='center', alpha=0.5)
plt.xticks(y_pos, objects)
plt.title('weighted proportion')
plt.show()
Вы увидите, что B
имеет более высокую среднюю прибыль, но, поскольку его размер выборки невелик, когда я рассматриваю взвешенную сумму и среднее значение, тогда A
показывает более высокую пропорциювес (Кстати, это правильный термин для значений, которые я рассчитал?)
Итак, мой вопрос:
- Использую ли я правильную метрику для сравнения точек данных?
- Как интерпретировать результаты?в этом примере продукт
A
может иметь более высокую весовую пропорцию, но все же B
имеет более высокую среднюю цену.Как правильно принять решение в этом случае?