Учитывая существующий дистрибутив, как я могу нарисовать образцы размера N со стандартным значением X? - PullRequest
2 голосов
/ 26 января 2020

У меня есть существующее распределение значений, и я хочу нарисовать выборки размером 5, но эти 5 выборок должны иметь стандартное отклонение X в некотором допуске. Например, мне нужно 5 сэмплов, у которых стандартное отклонение равно 10 (хотя общее распределение равно std = ~ 32).

Приведенный ниже пример кода несколько работает, но довольно медленно для большого набора данных. Он случайным образом выбирает распределение, пока не находит что-то близкое к целевому стандартному стандарту, а затем удаляет эти элементы, чтобы они не могли быть отрисованы снова.

Есть ли более разумный способ сделать это правильно и быстрее? Это работает нормально для некоторых target_std (выше 6), но не точно ниже 6.

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(23)

# Create a distribution
d1 = np.random.normal(95, 5, 200)
d2 = np.random.normal(125, 5, 200)
d3 = np.random.normal(115, 10, 200)
d4 = np.random.normal(70, 10, 100)
d5 = np.random.normal(160, 5, 200)
d6 = np.random.normal(170, 20, 100)
dist = np.concatenate((d1, d2, d3, d4, d5, d6))
print(f"Full distribution: len={len(dist)}, mean={np.mean(dist)}, std={np.std(dist)}")
plt.hist(dist, bins=100)
plt.title("Full Distribution")
plt.show();


batch_size = 5
num_batches = math.ceil(len(dist)/batch_size)
target_std = 10
tolerance = 1
# how many samples to search
num_samples = 100
result = []

# Find samples of batch_size that are closest to target_std
for i in range(num_batches):
    samples = []
    idxs = np.arange(len(dist))
    for j in range(num_samples):
        indices = np.random.choice(idxs, size=batch_size, replace=False)
        sample = dist[indices]
        std = sample.std()
        err = abs(std - target_std)
        samples.append((sample, indices, std, err, np.mean(sample), max(sample), min(sample)))
        if err <= tolerance:
            # close enough, stop sampling
            break
    # sort by smallest err first, then take the first/best result
    samples = sorted(samples, key=lambda x: x[3])
    best = samples[0] 
    if i % 100 == 0:
        pass
        print(f"{i}, std={best[2]}, err={best[3]}, nsamples={num_samples}")
    result.append(best)
    # remove the data from our source
    dist = np.delete(dist, best[1])

df_samples = pd.DataFrame(result, columns=["sample", "indices", "std", "err", "mean", "max", "min"])

df_samples["err"].plot(title="Errors (target_std - batch_std)")
batch_std = df_samples["std"].mean()
batch_err = df_samples["err"].mean()
print(f"RESULT: Target std: {target_std}, Mean batch std: {batch_std}, Mean batch err: {batch_err}")

Example output

1 Ответ

2 голосов
/ 27 января 2020

Поскольку ваша проблема не ограничена определенным дистрибутивом, я использую обычно случайное распределение, но это должно работать для любого дистрибутива. Однако время выполнения будет зависеть от размера популяции.

population = np.random.randn(1000)*32
std = 10.
tol = 1.
n_samples = 5
samples = list(np.random.choice(population, n_samples))
while True:
    center = np.mean(samples)
    dis = [abs(i-center) for i in samples]
    if np.std(samples)>(std+tol):
        samples.pop(dis.index(max(dis)))
    elif np.std(samples)<(std-tol):
        samples.pop(dis.index(min(dis)))
    else:
        break
    samples.append(np.random.choice(population, 1)[0])

Вот как работает код. Во-первых, нарисуйте n_samples, возможно, стандартное отклонение находится не в нужном диапазоне, поэтому мы рассчитываем среднее и абсолютное расстояние каждой выборки до среднего. Затем, если стандартное значение больше требуемого значения плюс допуск, мы пинаем самую дальнюю выборку и рисуем новую, и наоборот.

Обратите внимание, что если для ваших данных требуется слишком много времени для вычисления, после нажатия кнопки Выше, вы можете вычислить, какой должен быть диапазон следующего элемента, который должен быть нарисован в популяции, вместо того, чтобы случайно брать один. Надеюсь, это сработает для вас.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Это больше не случайная ничья, и вы должны знать, что ничья смещена и не является репрезентативной для населения.

...