У меня есть файл pickle, который составляет 36,9 МБ, это файл данных, который содержит 16 переменных с 239 427 наблюдениями.
(на самом деле у меня есть ряд других файлов pickle, каждый из которых содержит 16 переменных, варьирующихся от 6,8 МБдо 36,9 МБ, основываясь на количестве наблюдений. Но у меня, кажется, только проблема с самым большим файлом ... что заставляет меня поверить, что это может быть слишком большой файл ...)
Яиспользование Pandas в Python для чтения в рассоле, как показано ниже:
df = pd.read_pickle('filename.pickle')
Меня интересует описательная статистика для этого DataFrame.Поэтому я использую функцию описания pandas DataFrame следующим образом:
df.describe()
Функция работает для всех моих файлов рассола, и в качестве вывода я получаю 'count', 'mean', 'std', 'min',' max ', ... и т. д.
Однако, если я попытаюсь использовать функцию' mean 'в DataFrame из самого большого файла выбора, например:
df.mean()
Моя тетрадь Python долго тратит «занято», а затем кажется, что время ожидания истекло.
Может кто-нибудь помочь мне понять, почему это так?Я очень запутался.
Кажется, что функция std работает просто отлично:
df.std()
В конечном счете, я хочу вычислить относительное стандартное отклонение для каждой переменной (поэтому мне нужно среднее значениеи стандарт для каждой переменной).И я планирую перебрать список DataFrames.