Получение сезонов из набора данных с помощью панд - PullRequest
0 голосов
/ 28 июня 2018

Учитывая следующий набор данных:

"";"M_001";"M_002";"M_003";"M_004"
"2011-01-01 00:00:00";4,45;3,5467;3,197;12,098
"2011-02-01 00:00:00";18,40;0,124;174,36;11,098
"2011-03-01 00:00:00";25,789;27,67;19,76;34,66
"2011-04-01 00:00:00";19,08;11,078;23,34;67,45
"2011-05-01 00:00:00";13,06;06,078;10,34;21,45
"2011-06-01 00:00:00";13,06;06,078;10,34;21,45
"2011-06-21 00:00:00";13,06;06,078;10,34;21,45
"2011-07-01 00:00:00";9,06;06,078;9,34;21,45
"2011-07-14 00:00:00";9,06;06,078;9,34;21,45
"2011-08-01 00:00:00";22,06;45,078;21,34;21,45
"2011-08-11 00:00:00";22,06;45,078;21,34;21,45
"2011-08-12 00:00:00";22,06;45,078;21,34;21,45
"2011-09-01 00:00:00";76,06;32,078;10,34;21,45
"2011-09-23 00:00:00";76,06;32,078;10,34;21,45
"2011-09-25 00:00:00";76,06;32,078;10,34;21,45
"2011-10-01 00:00:00";17,06;18,078;108,34;21,45
"2011-11-01 00:00:00";12,06;45,078;107,34;21,45
"2011-12-01 00:00:00";7,06;60,078;83,34;21,45
"2011-12-21 00:00:00";7,06;60,078;83,34;21,45
"2012-01-01 00:00:00";4,45;3,5467;3,197;12,098
"2012-02-01 00:00:00";18,40;0,124;174,36;11,098
"2012-03-01 00:00:00";25,789;27,67;19,76;34,66
"2012-03-11 00:00:00";25,789;27,67;19,76;34,66
"2012-03-20 00:00:00";25,789;27,67;19,76;34,66
"2012-03-30 00:00:00";25,789;27,67;19,76;34,66

Может кто-нибудь сказать мне, как изменить функцию calc (), чтобы выбрать строки из набора данных, чтобы я мог получать строки отдельно для обоих зимних сезонов (с 21 декабря по 20 марта) а летний сезон (с 21 июня по 23 сентября) с read_csv?

Я уже пытался написать этот код, но он не работает хорошо.

import pandas as pd 

def calc():
    filename = 'mydataset/dataset.csv'
    mySeries = pd.read_csv(filename, header=0, index_col=0, parse_dates=[0], sep=";", decimal=",")

    return mySeries

if __name__ == '__main__':
    df = calc()
    print("Winter season measures: ")
    print(df.iloc[[x in range(12, 3) for x in df.index.month]])
    print("Winter season measures: ")
    print(df.iloc[[x in range(6, 10) for x in df.index.month]])

Заранее спасибо!

1 Ответ

0 голосов
/ 28 июня 2018

Я воссоздал твой DF здесь:

from io import StringIO
import pandas as pd 
text = StringIO('''"";"M_001";"M_002";"M_003";"M_004"
"2011-01-01 00:00:00";4,45;3,5467;3,197;12,098
"2011-02-01 00:00:00";18,40;0,124;174,36;11,098
"2011-03-01 00:00:00";25,789;27,67;19,76;34,66
"2011-04-01 00:00:00";19,08;11,078;23,34;67,45
"2011-05-01 00:00:00";13,06;06,078;10,34;21,45
"2011-06-01 00:00:00";13,06;06,078;10,34;21,45
"2011-06-21 00:00:00";13,06;06,078;10,34;21,45
"2011-07-01 00:00:00";9,06;06,078;9,34;21,45
"2011-07-14 00:00:00";9,06;06,078;9,34;21,45
"2011-08-01 00:00:00";22,06;45,078;21,34;21,45
"2011-08-11 00:00:00";22,06;45,078;21,34;21,45
"2011-08-12 00:00:00";22,06;45,078;21,34;21,45
"2011-09-01 00:00:00";76,06;32,078;10,34;21,45
"2011-09-23 00:00:00";76,06;32,078;10,34;21,45
"2011-09-25 00:00:00";76,06;32,078;10,34;21,45
"2011-10-01 00:00:00";17,06;18,078;108,34;21,45
"2011-11-01 00:00:00";12,06;45,078;107,34;21,45
"2011-12-01 00:00:00";7,06;60,078;83,34;21,45
"2011-12-21 00:00:00";7,06;60,078;83,34;21,45
"2012-01-01 00:00:00";4,45;3,5467;3,197;12,098
"2012-02-01 00:00:00";18,40;0,124;174,36;11,098
"2012-03-01 00:00:00";25,789;27,67;19,76;34,66
"2012-03-11 00:00:00";25,789;27,67;19,76;34,66
"2012-03-20 00:00:00";25,789;27,67;19,76;34,66
"2012-03-30 00:00:00";25,789;27,67;19,76;34,66''')
df = pd.read_csv(filepath_or_buffer=text, sep=';', header=0, index_col=0, decimal=',', parse_dates=[0])

Затем я написал код, который создает два новых фрейма данных и добавляет все месяцы в ваши зимние и летние диапазоны. РЕДАКТИРОВАТЬ: закомментированная старая версия, сохраненная ниже.

winterStart = '-12-21'
winterEnd   = '-03-20'
summerStart = '-06-21'
summerEnd   = '-09-23'

#df_winter = df.ix[str('2010'+winterStart):str('2011'+winterEnd)]
#df_winter = df_winter.append(df.ix['2011'+winterStart:'2012'+winterEnd])
#df_winter = df_winter.append(df.ix['2012'+winterStart:'2013'+winterEnd])

#df_summer = df.ix['2010'+summerStart:'2010'+summerEnd]
#df_summer = df_summer.append(df.ix['2011'+summerStart:'2011'+summerEnd])
#df_summer = df_summer.append(df.ix['2012'+summerStart:'2012'+summerEnd])

Если у вас было больше лет, вы можете создать цикл, который повторяет каждый последующий год и добавляет сезонные данные за этот год. РЕДАКТИРОВАТЬ: OP запросил эту функцию. Добавлен цикл для получения всех лет без указания каждого года для каждого сезона. В другом комментарии упоминается, что df.ix [] устарел, поэтому я изменил код для использования df.loc [] вместо df.ix [], как в предыдущей версии.

df_winter = pd.DataFrame()
for year in range(2010, 2015):
    df_winter = df_winter.append(df.loc[str(year) + winterStart : str(year+1) + winterEnd]) 
    # used year and year+1 because winter season spans from an initial year to the next year.
print(df_winter)

df_summer = pd.DataFrame()
for year in range(2010, 2015):
    df_summer = df_summer.append(df.loc[str(year) + summerStart : str(year) + summerEnd])
print(df_summer)

Также см. Фильтрация кадров данных Pandas по датам для фильтрации между диапазонами дат, когда ваша дата является индексом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...