обновление данных или предотвращение дублирования данных - PullRequest
0 голосов
/ 24 октября 2019

Я регулярно извлекаю данные каждый день. Данные, которые я извлекаю, могут быть обновлены в течение нескольких дней. Если он обновляется, я хочу перезаписать старый. Если данные не обновляются, я не хочу, чтобы данные дублировались.

Вот мой код:


    def get_profit_loss(startDate, endDate):
        profit_loss = pd.DataFrame()
        end_time = pd.to_datetime(endDate, format='%Y-%m-%d') +  datetime.timedelta(days=1) - datetime.timedelta(hours=1)
        date_range = pd.date_range(start=startDate, end=end_time, freq='H')
        profit_loss = profit_loss.reindex(date_range)
        profit_loss = data_extracter.get_profit_loss(startDate, endDate)
        profit_loss['date'] = pd.to_datetime(profit_loss['date'].str[0:-5], format='%Y-%m-%dT%H:%M:%S.%f')
        profit_loss.set_index('date', inplace = True)
        return profit_loss


    profit_loss = get_profit_loss(startdate, enddate)

    if datetime.date.today().day == 2: 
        profit_loss.to_excel(profit_loss_path + month + " profit_loss.xlsx", index = True)

    else:
        df_profit_loss = pd.read_excel(profit_loss_path + month + " profit_loss.xlsx", index_col = 0)
        df_profit_loss = df_profit_loss.append(profit_loss, sort = False)
        df_profit_loss.to_excel(profit_loss_path + month + " profit_loss.xlsx", index = True)

Я читаю файл excel, который содержит мои старые данные, и добавляю новые данные к старым, и пишу в Excel. Я продолжаю увеличивать данные до конца месяца, потому что я создаю новый файл Excel для каждого месяца. Но, к сожалению, у меня иногда возникают проблемы с дубликатами или данными старых версий. Как мне изменить последнюю часть кода? Как мне решить эту проблему?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...