Как увидеть распределение данных, если диапазон данных очень большой - PullRequest
0 голосов
/ 16 марта 2020

Я хочу посмотреть распространение моих данных. Я хочу использовать гистограммы с Matplotlib, но проблема в том, что мои данные имеют очень большой диапазон, они выглядят так:

my_data = [1,2,3,1,1,2,2,3,3,4,4,1,2,4,2,3,3,1,2,3,1,2,3,3,3,2,1,1,3,2,2,2,5,6,5,6,7,8,6,5,4,3,2,4,1,4,5,3,1,3,5,7,4,5635,2,4,5,5,2,2,5,1,1,2,3,5,3,3462,6,6,7,5,4,3,4,5,3,2,1,3,7855]

Единственная проблема в том, что у меня более 5000 элементов, которые находятся в диапазоне 0-6, и несколько элементов, которые больше 1000.

Как я могу увидеть распределение моих данных, чтобы я мог теперь, если я могу удалить некоторые данные из него. Если я строю гистограмму, я вижу только один или два столбца, на которых отображаются данные от 0 до 6, но я не вижу столбцов, на которых отображаются данные, превышающие 1000, потому что их не так много.

import matplotlib.pyplot as plt

plt.hist(my_data, bins = 15)
plt.show()

1 Ответ

1 голос
/ 16 марта 2020

РЕДАКТИРОВАТЬ: Если список содержит 0.

my_data =[0,2,3,1,1,2,2,3,3,4,4,1,2,4,2,3,3,1,2,3,1,2,3,3,3,2,1,1,3,2,2,2,5,6,5,6,7,8,6,5,4,3,2,4,1,4,5,3,1,3,5,7,4,5635,2,4,5,5,2,2,5,1,1,2,3,5,3,3462,6,6,7,5,4,3,4,5,3,2,1,3,7855]

import numpy as np

my_data = np.array(my_data)
my_data = mydata + 1
my_data = np.log(my_data)

import matplotlib.pyplot as plt

plt.hist(my_data, bins = 15)
plt.show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...