Преобразование файла со столбцом для каждого месяца в файл, в котором есть только один столбец и одна строка в месяц. - PullRequest
0 голосов
/ 11 ноября 2018

Я уверен, что об этом спрашивали и отвечали, но я слишком глуп, чтобы найти это. У меня есть файл, который имеет форму:

StationID, год, январь-значение, февраль-значение, мар-значение, апрель-значение, ..., дек-значение

и я хочу преобразовать его из короткого толстого файла с 12 месяцами в каждой строке в длинный тощий файл, содержащий только StationID, дату, значение, год и месяц.

Я собрал код для этого, и он работает. В качестве входных данных он принимает фрейм данных Pandas и выводит фрейм данных. Но это медленно, и я уверен, что я делаю это дико неэффективно. Любая помощь будет оценена.

def long_skinny(df):
# df is a pandas dataframe
# get min and max year from dataframe
    min_year = df['year'].min()
    max_year = df['year'].max()
# set startdate to Jan. 1st of the first year.
    startdate = str(min_year) + "0101"
# final file will have this many periods
    num_periods = ((max_year - min_year)+1)*12
# generate a pandas dataframe with a datetime index
    dates = pandas.date_range(start=startdate ,periods=num_periods,freq = 'M' )
# set up an empty list
    tmps = []
# find years that are in the input dataframe
    avail_years = df['year'].tolist()
    id_tmp = df['id']
    for iyear in range(min_year, max_year+1):
        # check to see if year is in the original file
        if iyear in avail_years:
            year_rec = df[(df['year'] == iyear)]
            tmps.append(int(year_rec['tmp1']))
            tmps.append(int(year_rec['tmp2']))
            tmps.append(int(year_rec['tmp3']))
            tmps.append(int(year_rec['tmp4']))
            tmps.append(int(year_rec['tmp5']))
            tmps.append(int(year_rec['tmp6']))
            tmps.append(int(year_rec['tmp7']))
            tmps.append(int(year_rec['tmp8']))
            tmps.append(int(year_rec['tmp9']))
            tmps.append(int(year_rec['tmp10']))
            tmps.append(int(year_rec['tmp11']))
            tmps.append(int(year_rec['tmp12']))
        else:
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)
            tmps.append(-9999)

    tmps_np = np.asarray(tmps, dtype=np.int64)
    var_names = ["temp"]
    ls_df = pandas.DataFrame(tmps_np, index = dates, columns = var_names)
# add two fields for the year and month
    ls_df['year']=ls_df.index.year
    ls_df['month']=ls_df.index.month
    ls_df['id'] = id_tmp
    return(ls_df)

Ответы [ 2 ]

0 голосов
/ 11 ноября 2018

с предполагаемым примером

StationID,Year,JanValue,FebValue,MarValue,AprValue,DecValue
A,2017,1,2,8,4,5
B,2017,1,2,8,4,5
A,2018,1,2,3,4,5
B,2018,1,2,3,4,5

код будет выглядеть так

df = df.melt(id_vars=['StationID', 'Year'], var_name='Month', value_vars=['JanValue','FebValue','MarValue','AprValue','DecValue'])

, после чего вы можете исправить названия месяцев с помощью

df['Month'] = df['Month'].str.replace('Value','')

Результат

    StationID   Year    Month   value
0   A   2017    Jan 1
1   B   2017    Jan 1
2   A   2018    Jan 1
3   B   2018    Jan 1
4   A   2017    Feb 2
5   B   2017    Feb 2
6   A   2018    Feb 2
7   B   2018    Feb 2
8   A   2017    Mar 8
9   B   2017    Mar 8
10  A   2018    Mar 3
11  B   2018    Mar 3
12  A   2017    Apr 4
13  B   2017    Apr 4
14  A   2018    Apr 4
15  B   2018    Apr 4
16  A   2017    Dec 5
17  B   2017    Dec 5
18  A   2018    Dec 5
19  B   2018    Dec 5

Так что осталось только отсортировать строки так, как вы хотите их отсортировали.

months = ["Jan", "Feb", "Mar", "Apr", "May", "Jun", 
          "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]
df['Month'] = pd.Categorical(df['Month'], categories=months, ordered=True)

df.sort_values(['StationID','Year','Month'], inplace=True)

За результат

    StationID   Year    Month   value
0   A   2017    Jan 1
4   A   2017    Feb 2
8   A   2017    Mar 8
12  A   2017    Apr 4
16  A   2017    Dec 5
2   A   2018    Jan 1
6   A   2018    Feb 2
10  A   2018    Mar 3
14  A   2018    Apr 4
18  A   2018    Dec 5
1   B   2017    Jan 1
5   B   2017    Feb 2
9   B   2017    Mar 8
13  B   2017    Apr 4
17  B   2017    Dec 5
3   B   2018    Jan 1
7   B   2018    Feb 2
11  B   2018    Mar 3
15  B   2018    Apr 4
19  B   2018    Dec 5
0 голосов
/ 11 ноября 2018

О, чувак, это похоже на большую работу, которую я бы не делал.

df = df.melt(id_vars=("StationID", "Year"), var_name="Month", value_name="Value")

Затем вы можете заменить имена переменных месяцами, используя что-то вроде:

df["Month"] = df["Month"].str.replace(...)

Соберите нужные даты в:

df["Date"] = pd.to_datetime(...)

Etc. Я был бы более конкретным, но без примера ваших реальных данных это лучшее, что я могу сделать ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...