«Среднее» не работает для Pandas DataFrame, чтение из Pickle с 16 x 200 000+ наблюдений - PullRequest
0 голосов
/ 05 апреля 2019

У меня есть файл pickle, который составляет 36,9 МБ, это файл данных, который содержит 16 переменных с 239 427 наблюдениями.

(на самом деле у меня есть ряд других файлов pickle, каждый из которых содержит 16 переменных, варьирующихся от 6,8 МБдо 36,9 МБ, основываясь на количестве наблюдений. Но у меня, кажется, только проблема с самым большим файлом ... что заставляет меня поверить, что это может быть слишком большой файл ...)

Яиспользование Pandas в Python для чтения в рассоле, как показано ниже:

df = pd.read_pickle('filename.pickle')

Меня интересует описательная статистика для этого DataFrame.Поэтому я использую функцию описания pandas DataFrame следующим образом:

df.describe()

Функция работает для всех моих файлов рассола, и в качестве вывода я получаю 'count', 'mean', 'std', 'min',' max ', ... и т. д.

Однако, если я попытаюсь использовать функцию' mean 'в DataFrame из самого большого файла выбора, например:

df.mean()

Моя тетрадь Python долго тратит «занято», а затем кажется, что время ожидания истекло.

Может кто-нибудь помочь мне понять, почему это так?Я очень запутался.

Кажется, что функция std работает просто отлично:

df.std()

В конечном счете, я хочу вычислить относительное стандартное отклонение для каждой переменной (поэтому мне нужно среднее значениеи стандарт для каждой переменной).И я планирую перебрать список DataFrames.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...