Question

У меня есть следующее DF.

DF Кол-во

| hold_date  | day_count | qty  |   item   | ccy |
+------------+-----------+------+----------+-----+
| 2015-01-01 |         1 | 1200 | CB04 box | USD |
| 2015-01-01 |         3 | 1500 | AB01 box | USD |
| 2015-01-02 |         2 |  550 | CB03 box | USD |

Я хочу увеличить hold_date на основе day_count. например item: AB01 box добавит две новые строки, как показано ниже. так что df может выглядеть так.

DF Кол-во

| hold_date  | qty  |   item   | ccy |
+------------+------+----------+-----+
| 2015-01-01 | 1200 | CB04 box | USD |
| 2015-01-01 | 1500 | AB01 box | USD |
| 2015-01-02 | 1500 | AB01 box | USD |
| 2015-01-03 | 1500 | AB01 box | USD |
| 2015-01-02 |  550 | CB03 box | USD |
| 2015-01-03 |  550 | CB03 box | USD |

Dennis Golomazov · Answer 1 · 29 июня 2018

Вот полностью векторизованное (без for петель) решение. Идея состоит в том, чтобы создать временный столбец со списками всех дат, а затем развернуть его в строки. Функция expand_column основана на этом ответе .

df = pd.DataFrame([['2015-01-01', 1, 1200, 'CB04 box', 'USD'],
                   ['2015-01-01', 3, 1500, 'AB01 box', 'USD'], 
                   ['2015-01-02', 2, 550, 'CB03 box', 'USD'], 
                  ], columns=['hold_date', 'day_count', 'qty', 'item', 'ccy'])        

range_col = lambda row: list(pd.date_range(start=pd.to_datetime(row.hold_date), periods=row.day_count))
df = df.assign(hold_date=df.apply(range_col, axis=1))
expand_column(df, 'hold_date')[['hold_date', 'qty', 'item', 'ccy']]

     hold_date   qty        item    ccy
0   2015-01-01  1200    CB04 box    USD
1   2015-01-01  1500    AB01 box    USD
1   2015-01-02  1500    AB01 box    USD
1   2015-01-03  1500    AB01 box    USD
2   2015-01-02  550     CB03 box    USD
2   2015-01-03  550     CB03 box    USD

def expand_column(dataframe, column):
    """Transform iterable column values into multiple rows.

    Source: https://stackoverflow.com/a/27266225/304209.

    Args:
        dataframe: DataFrame to process.
        column: name of the column to expand.

    Returns:
        copy of the DataFrame with the following updates:
            * for rows where column contains only 1 value, keep them as is.
            * for rows where column contains a list of values, transform them
                into multiple rows, each of which contains one value from the list in column.
    """
    tmp_df = dataframe.apply(
        lambda row: pd.Series(row[column]), axis=1).stack().reset_index(level=1, drop=True)
    tmp_df.name = column
    return dataframe.drop(column, axis=1).join(tmp_df)

Anton vBR · Answer 2 · 29 июня 2018

Это уродливо, но все равно оставить здесь:)

df = pd.concat(pd.DataFrame([df.loc[i]]*df.loc[i]['day_count'])
            .assign(hold_date= pd.date_range(
                    df.loc[i]['hold_date'], 
                    periods=df.loc[i]['day_count'],
                    freq='D')) 
    for i in range(len(df)))

полный пример:

import pandas as pd

df = pd.DataFrame({
    'hold_date': pd.date_range('2015-01-01', '2015-01-02'),
    'day_count': [2,3],
    'qty': [1200,1500]
})

df = pd.concat(pd.DataFrame([df.loc[i]]*df.loc[i]['day_count'])
            .assign(hold_date= pd.date_range(
                    df.loc[i]['hold_date'], 
                    periods=df.loc[i]['day_count'],
                    freq='D')) 
    for i in range(len(df)))

print(df)

Возвращает:

   day_count  hold_date   qty
0          2 2015-01-01  1200
0          2 2015-01-02  1200
1          3 2015-01-02  1500
1          3 2015-01-03  1500
1          3 2015-01-04  1500

WeNYoBen · Answer 3 · 29 июня 2018

Потребность:

s=df.day_count
s1=[pd.Timedelta(x,'D') for x in sum(df.day_count.apply(lambda x : list(range(x))),[])]
df_new=df.reindex(df.index.repeat(s))
df_new['hold_date']=df_new.hold_date+s1
df_new
Out[642]: 
   hold_date  day_count   qty     item  ccy
0 2015-01-01          1  1200  CB04box  USD
1 2015-01-01          3  1500  AB01box  USD
1 2015-01-02          3  1500  AB01box  USD
1 2015-01-03          3  1500  AB01box  USD
2 2015-01-02          2   550  CB03box  USD
2 2015-01-03          2   550  CB03box  USD

Haytam · Answer 4 · 29 июня 2018

Вы можете сделать это, создав новый DataFrame из вашего числа DF, а также повторив элементы qty * times:

df_qty = pd.DataFrame([df_qty.ix[idx] 
                      for idx in df_qty.index 
                      for _ in range(df_qty.ix[idx]['qty'])]).reset_index(drop=True)

Это создаст новый список, содержащий строку foreach, qty* дубликат этого.

Панды дублируют строки df, основанные на столбце количества дней

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды дублируют строки df, основанные на столбце количества дней

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов