Сравнение средств из разных размеров выборки - PullRequest
0 голосов
/ 25 октября 2018

У меня есть набор данных, который содержит среднюю прибыль и количество выборок для каждой точки данных, больше информации нет.

Я хотел бы сравнить точки данных и решить, на какой из них сосредоточиться больше.Однако я не уверен, как принять во внимание размер выборки.В качестве упрощенного примера я написал код на Python ниже.

import matplotlib.pyplot as plt; plt.rcdefaults()
import numpy as np

objects = ('A', 'B', 'C', 'D')
y_pos = np.arange(len(objects))
sample_sizes = [10,5,20,15]
sample_avgProfit = [12,14,2,4]
weighted_mean = 0
for i in range (len(sample_sizes)):
    weighted_mean += sample_sizes[i]/sum(sample_sizes)*sample_avgProfit[i]

weighted_proportion = []
weighted_sum = sum([a*b for (a,b) in zip(sample_sizes,sample_avgProfit)])
for i in range (len(sample_sizes)):
    weighted_proportion.append(sample_sizes[i]*sample_avgProfit[i]/weighted_sum)


plt.bar(y_pos, sample_avgProfit, align='center', alpha=0.5)
plt.xticks(y_pos, objects)
plt.title('avg profit')
plt.show()

plt.bar(y_pos, weighted_proportion, align='center', alpha=0.5)
plt.xticks(y_pos, objects)
plt.title('weighted proportion')
plt.show()

Вы увидите, что B имеет более высокую среднюю прибыль, но, поскольку его размер выборки невелик, когда я рассматриваю взвешенную сумму и среднее значение, тогда A показывает более высокую пропорциювес (Кстати, это правильный термин для значений, которые я рассчитал?)

Итак, мой вопрос:

  1. Использую ли я правильную метрику для сравнения точек данных?
  2. Как интерпретировать результаты?в этом примере продукт A может иметь более высокую весовую пропорцию, но все же B имеет более высокую среднюю цену.Как правильно принять решение в этом случае?
...