Question

У меня есть фрейм данных df1, имеющий столбец для date_1 со значениями с 01/09/2019 по 30/09/2019. т.е. 30 значений и соответствующий счет.

DF1

    date_1    count
    01/09/2019  5
    02/09/2019  4
    03/09/2019  5
    04/09/2019  6
    05/09/2019  7
    06/09/2019  8
    07/09/2019  10
    08/09/2019  9
    09/09/2019  11
    10/09/2019  12
    11/09/2019  13
    12/09/2019  14
    13/09/2019  15
    14/09/2019  16

Я хочу создать кадр данных df2 такой, что:

Существует новый столбец date_2.
date_2 генерируются для функции счетчика, присутствующего в df1.

Например: новый фрейм данных df2 имеет 5 записей (начиная с count = 5) для 01/09/2019, а столбец date_2 может принимать значения от 30 дней до даты_1 до 30/08 /2019 (текущая дата в date_1 - 1)

Ожидаемый результат:

    date_1    count   date_2
    01/09/2019  5     02/08/2019
    01/09/2019  5     10/08/2019
    01/09/2019  5     12/08/2019
    01/09/2019  5     25/08/2019
    01/09/2019  5     28/08/2019
    02/09/2019  4     03/08/2019
    02/09/2019  4     10/08/2019
    02/09/2019  4     20/08/2019
    02/09/2019  4     25/08/2019

date_2 может быть произвольно выбран из диапазона (от 30 - date_1 до date_1 - 1)т. е. в нашем примере на 01/09/2019, с 08/08/2019 по 30/08/2019

РЕДАКТИРОВАТЬ

Мне удалось сгенерировать случайную дату_2 с помощьюфункция:

def pick_random_delta_in_range(min_days=1, max_days=30):
    if min_days is None and max_days is None:
        return datetime.timedelta(days=1, minutes=0, seconds=0)
    if min_days is None:
        return max_days
    if max_days is None:
        return min_days
    days_to_be_added = random.randint(min_days, max_days)
    return datetime.timedelta(days=days_to_be_added, minutes=0, seconds=0)

def gen_date_by_delta(src_dates, date_format, delta_min, delta_max):
    gen_dates = []
    for dt in src_dates:
        src_date = datetime.datetime.strptime(dt, date_format)

        if src_date is None:
            gen_dates.append("")
            continue

        chosen_delta = pick_random_delta_in_range(min_days=delta_min, max_days=delta_max)

        result_date = (src_date + chosen_delta).strftime(date_format)
        gen_dates.append(result_date)

    return gen_dates

date_2 = gen_date_by_delta(src_dates=df1["date_1"], date_format=date_format, delta_min=1, delta_max=30)

Я не могу понять, как копировать поля в кадре данных в соответствии с количеством и генерировать даты соответственно.

* В настоящее время дельта генерируется случайным образом и может генерировать ту же дельту для той же даты_1, что приводит к дублированию записей. Я не хочу создавать повторяющиеся записи. *

Может кто-нибудь предложить способ создать то же самое.

Спасибо

Eduard Ilyasov · Answer 1 · 03 ноября 2019

Для решения вашей проблемы вы можете создать настраиваемую функцию, которая возвращает случайную дату в указанном формате между date-30 и date-1 и применить эту функцию к повторным датам вашего нового кадра данных:

import pandas as pd
import random

def get_randomized_str_date(input_str_date):
    ub_date = pd.to_datetime(input_str_date, dayfirst=True) - pd.DateOffset(1)
    lb_date = ub_date - pd.DateOffset(29)
    dates_range = pd.date_range(lb_date, ub_date)
    return random.choice(dates_range).strftime('%d/%m/%Y')

# Create sample DataFrame
data = {'date_1': ['01/09/2019', '02/09/2019', '03/09/2019'],
        'count': [5, 4, 5]}
df = pd.DataFrame(data)
print(df)
#        date_1  count
# 0  01/09/2019      5
# 1  02/09/2019      4
# 2  03/09/2019      5

# Preprocess created DataFrame
df_new = df.loc[df.index.repeat(df['count'])] # repeat each row n-times, where n stored in df['count']
df_new['date_2'] = df_new['date_1'].apply(lambda x: get_randomized_str_date(x)) # get random date for specified date
print(df_new)
#        date_1  count      date_2
# 0  01/09/2019      5  18/08/2019
# 0  01/09/2019      5  23/08/2019
# 0  01/09/2019      5  23/08/2019
# 0  01/09/2019      5  27/08/2019
# 0  01/09/2019      5  12/08/2019
# 1  02/09/2019      4  11/08/2019
# 1  02/09/2019      4  02/08/2019
# 1  02/09/2019      4  03/08/2019
# 1  02/09/2019      4  23/08/2019
# 2  03/09/2019      5  01/09/2019
# 2  03/09/2019      5  28/08/2019
# 2  03/09/2019      5  21/08/2019
# 2  03/09/2019      5  19/08/2019
# 2  03/09/2019      5  31/08/2019

ОБНОВЛЕНИЕ

Чтобы избежать дублирования дат в столбце date_2, вы можете сделать следующее:

Для каждой уникальной даты в столбце date_1 вы можете создать генератор дат, который соответствует вашим требованиям и дляПри каждом появлении даты из столбца date_1 вы можете получить уникальную дату от генератора, которая соответствует этой дате:

def get_date_generator(input_str_date):
    ub_date = pd.to_datetime(input_str_date, dayfirst=True) - pd.DateOffset(1)
    lb_date = ub_date - pd.DateOffset(29)
    dates_range = [date.strftime('%d/%m/%Y') for date in pd.date_range(lb_date, ub_date)]
    np.random.shuffle(dates_range)
    return (date for date in dates_range)

def process_date_iter(generator):
    try:
        next_date = generator.__next__()
    except StopIteration:
        next_date = np.nan
    return next_date

dates_generators = {date: get_date_generator(date) for date in df['date_1'].unique()}
df_new = df.loc[df.index.repeat(df['count'])]
df_new['date_2'] = df_new['date_1'].apply(lambda x: process_date_iter(dates_generators[x]))
print(df_new)
#        date_1  count      date_2
# 0  01/09/2019      5  04/08/2019
# 0  01/09/2019      5  14/08/2019
# 0  01/09/2019      5  25/08/2019
# 0  01/09/2019      5  03/08/2019
# 0  01/09/2019      5  02/08/2019
# 1  02/09/2019      4  14/08/2019
# 1  02/09/2019      4  08/08/2019
# 1  02/09/2019      4  30/08/2019
# 1  02/09/2019      4  28/08/2019
# 2  03/09/2019      5  29/08/2019
# 2  03/09/2019      5  10/08/2019
# 2  03/09/2019      5  26/08/2019
# 2  03/09/2019      5  15/08/2019
# 2  03/09/2019      5  28/08/2019

giulio · Answer 2 · 03 ноября 2019

это альтернатива (более простая) предыдущему ответу для расширения первого столбца:

df_new=pd.DataFrame() 

l=[]
for i,r in df.iterrows():
    for j in range(df.loc[i,'count']):
        l.append(r.date_1)

df_new.date_1=l
print(df_new)

, тогда вы можете использовать .apply и ваши функции для определения нового столбца...

Vishnudev · Answer 3 · 03 ноября 2019

Используйте reindex для повторения строк,

df.reindex(df.index.repeat(df['count'])).reset_index(drop=True)

Результат в

         date_1  count
0    01/09/2019      5
1    01/09/2019      5
2    01/09/2019      5
3    01/09/2019      5
4    01/09/2019      5
..          ...    ...
130  14/09/2019     16
131  14/09/2019     16
132  14/09/2019     16
133  14/09/2019     16
134  14/09/2019     16

Для непрерывного неповторяющегося диапазона дат,

>>> df['date_2'] = df.apply(lambda x: pd.date_range(x['date_1'], periods=x['count']).to_list(), axis=1)
>>> df = df.explode('date_2')
>>> df
        date_1  count     date_2
0   01/09/2019      5 2019-01-09
0   01/09/2019      5 2019-01-10
0   01/09/2019      5 2019-01-11
0   01/09/2019      5 2019-01-12
0   01/09/2019      5 2019-01-13
..         ...    ...        ...
13  14/09/2019     16 2019-09-25
13  14/09/2019     16 2019-09-26
13  14/09/2019     16 2019-09-27
13  14/09/2019     16 2019-09-28
13  14/09/2019     16 2019-09-29

[135 rows x 3 columns]

Генерация данных для дат на основе ограничения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Генерация данных для дат на основе ограничения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов