Python: Matplotlib - вероятностный график для нескольких наборов данных - PullRequest
4 голосов
/ 13 июня 2011

У меня есть несколько наборов данных (распределение) следующим образом:

set1 = [1,2,3,4,5]
set2 = [3,4,5,6,7]
set3 = [1,3,4,5,8]

Как построить график рассеяния с указанными выше наборами данных, при этом ось Y является вероятностью (то есть процентилем распределения в наборе: 0% -100%), а ось X является именами набора данных? в JMP он называется «Квантильный график».

Нечто вроде прикрепленного изображения: enter image description here

Пожалуйста, просветите. Спасибо.

[EDIT]

Мои данные в CSV как таковые:

enter image description here

Используя инструмент анализа JMP, я могу построить график распределения вероятностей (график QQ / график нормального квантиля, как показано на рисунке ниже):

enter image description here

Я считаю, что Джо Кингтон почти решил мою проблему, но мне интересно, как обработать необработанные данные CSV в массивы вероятности или процентилей.

Я делаю это для автоматизации анализа статистики в Python, а не в зависимости от JMP для построения графиков.

1 Ответ

11 голосов
/ 14 июня 2011

Я не совсем понимаю, что вы хотите, поэтому я угадаю, здесь ...

Вы хотите, чтобы значения "Вероятность / процентиль" были кумулятивной гистограммой?

Так что для одного сюжета, у вас было бы что-то вроде этого?(Нанесите на карту маркеры, как показано выше, вместо традиционного пошагового графика ...)

import scipy.stats
import numpy as np
import matplotlib.pyplot as plt

# 100 values from a normal distribution with a std of 3 and a mean of 0.5
data = 3.0 * np.random.randn(100) + 0.5

counts, start, dx, _ = scipy.stats.cumfreq(data, numbins=20)
x = np.arange(counts.size) * dx + start

plt.plot(x, counts, 'ro')
plt.xlabel('Value')
plt.ylabel('Cumulative Frequency')

plt.show()

enter image description here

Если это примерно то, что вы хотите для одногосюжет, есть несколько способов сделать несколько графиков на фигуре.Самым простым является использование сюжетов.

Здесь мы сгенерируем несколько наборов данных и нанесем их на разные участки с разными символами ...

import itertools
import scipy.stats
import numpy as np
import matplotlib.pyplot as plt

# Generate some data... (Using a list to hold it so that the datasets don't 
# have to be the same length...)
numdatasets = 4
stds = np.random.randint(1, 10, size=numdatasets)
means = np.random.randint(-5, 5, size=numdatasets)
values = [std * np.random.randn(100) + mean for std, mean in zip(stds, means)]

# Set up several subplots
fig, axes = plt.subplots(nrows=1, ncols=numdatasets, figsize=(12,6))

# Set up some colors and markers to cycle through...
colors = itertools.cycle(['b', 'g', 'r', 'c', 'm', 'y', 'k'])
markers = itertools.cycle(['o', '^', 's', r'$\Phi$', 'h'])

# Now let's actually plot our data...
for ax, data, color, marker in zip(axes, values, colors, markers):
    counts, start, dx, _ = scipy.stats.cumfreq(data, numbins=20)
    x = np.arange(counts.size) * dx + start
    ax.plot(x, counts, color=color, marker=marker, 
            markersize=10, linestyle='none')

# Next we'll set the various labels...
axes[0].set_ylabel('Cumulative Frequency')
labels = ['This', 'That', 'The Other', 'And Another']
for ax, label in zip(axes, labels):
    ax.set_xlabel(label)

plt.show()

enter image description here

Если мы хотим, чтобы это выгляделокак один непрерывный график, мы можем просто сжать вспомогательные участки вместе и отключить некоторые границы.Просто добавьте следующее перед вызовом plt.show()

# Because we want this to look like a continuous plot, we need to hide the
# boundaries (a.k.a. "spines") and yticks on most of the subplots
for ax in axes[1:]:
    ax.spines['left'].set_color('none')
    ax.spines['right'].set_color('none')
    ax.yaxis.set_ticks([])
axes[0].spines['right'].set_color('none')

# To reduce clutter, let's leave off the first and last x-ticks.
for ax in axes:
    xticks = ax.get_xticks()
    ax.set_xticks(xticks[1:-1])

# Now, we'll "scrunch" all of the subplots together, so that they look like one
fig.subplots_adjust(wspace=0)

enter image description here

Надеюсь, это поможет, во всяком случае!

Редактировать: Если вы хотите процентильзначения, вместо кумулятивной гистограммы (я действительно не должен был использовать 100 в качестве размера выборки!), это легко сделать.

Просто сделайте что-то вроде этого (используя numpy.percentile вместо нормализации вещей вручную):

# Replacing the for loop from before...
plot_percentiles = range(0, 110, 10)
for ax, data, color, marker in zip(axes, values, colors, markers):
    x = np.percentile(data, plot_percentiles)
    ax.plot(x, plot_percentiles, color=color, marker=marker, 
            markersize=10, linestyle='none')

enter image description here

...