Прокрутите два фрейма данных и сравните столбец данных. - PullRequest
1 голос
/ 31 марта 2020

У меня есть следующие фреймы данных:

      import pandas as pd
      import numpy as np

      df_Sensor = pd.DataFrame({'ID_System_Embed': ['1000', '1000', '1000', '1003', '1004'], 
                      'Date_Time': ['2020-10-18 12:58:05', '2020-10-18 12:58:15',
                                    '2020-10-19 20:10:10', '2018-12-18 12:58:00', 
                                    '2015-10-25 11:00:00']})



     df_Period = pd.DataFrame({'ID_System_Embed': ['1000', '1000', '1001', '1002', '1003', '1004'],
                      'ID_Sensor': ['1', '2', '3', '4', '5', '6'], 
                      'Date_Init': ['2020-10-18 12:58:00', '2020-10-18 19:58:00',
                                    '2019-11-18 19:58:00', '2018-12-29 12:58:00',
                                    '2019-11-20 12:58:00', '2015-10-25 10:00:00'],

                      'Date_End': ['2020-10-18 16:58:00', '2020-10-19 20:58:00',
                                   '2019-11-25 12:58:00', '2018-12-18 12:58:00',
                                   '2019-11-25 12:58:00', '2015-10-25 12:00:00']})

Мне нужно определить, содержится ли дата в фрейме данных df_Sensor в диапазоне дат второго фрейма данных (df_Period) для того же ID_System_Embed (Identifier) встроенной системы).

Я попытался реализовать следующий код:

      df_Period['New_Column'] = 0

     for j in range(0, len(df_Period)):
          for i in range(0, len(df_Sensor)):


              if((df_Sensor['ID_System_Embed'].iloc[i] == df_Period['ID_System_Embed'].iloc[j]) &
                 (df_Sensor['Date_Time'].iloc[i] >= df_Period['Date_Init'].iloc[j]) &
                 (df_Sensor['Date_Time'].iloc[i] <= df_Period['Date_End'].iloc[j])):

                   df_Period['New_Column'].iloc[j] += 1       

Этот код объединяется и приводит к ожидаемому результату. Тем не менее, это не очень эффективно, потому что нужно перебирать два фрейма данных (используя for). Я хотел бы найти более быстрый и эффективный способ выполнить операцию и получить такой же вывод.

Вывод:

       ID_System_Embed     ID_Sensor       Date_Init          Date_End           New_Column
           1000               1       2020-10-18 12:58:00   2020-10-18 16:58:00     2
           1000               2       2020-10-18 19:58:00   2020-10-19 20:58:00     1
           1001               3       2019-11-18 19:58:00   2019-11-25 12:58:00     0
           1002               4       2018-12-29 12:58:00   2018-12-18 12:58:00     0
           1003               5       2019-11-20 12:58:00   2019-11-25 12:58:00     0
           1004               6       2015-10-25 10:00:00   2015-10-25 12:00:00     1

1 Ответ

1 голос
/ 31 марта 2020

Сгруппируйте df_Period и df_Sensor по ['ID_System_Embed', 'ID_Sensor'] в качестве уникальных ключей
Затем агрегируйте значения других столбцов дат в виде списка, используя функцию appnd

def appnd(col):
    return [d for d in col]

df_p = df_Period.copy().groupby(['ID_System_Embed', 'ID_Sensor']).agg(appnd)
df_s = df_Sensor.copy().groupby(['ID_System_Embed']).agg(appnd)

Затем объедините два кадра данных (Вы можете заполнить NaN 0)

df = df_p.join(df_s).fillna(value = 0)
df['New_Column'] = 0
df

enter image description here

Применить эту функцию к столбцам дат, отображающим результаты в New_Column

def inInterval(row):
    ctr = 0
    for d in row[2]:
        for start, end in zip(row[0], row[1]):
            if  start <= d <= end: ctr +=1
    return ctr

df['New_Column'] = df[ ['Date_Init', 'Date_End', 'Date_Time'] ].copy()\
                    .apply(lambda x: inInterval(x)  if type(x[2]) == list else 0, axis = 1)
df

enter image description here

...