Question

У меня есть 2 больших кадра данных (ниже приведены только выдержки), содержащие информацию о дорожно-транспортных происшествиях, где df_veh содержит информацию о транспортных средствах, а df_ped содержит количество пешеходов, вовлеченных в каждую аварию. veh_type показывает тип транспортных средств, попавших в аварию (1 = велосипед, 2 = автомобиль, 3 = автобус). Они связаны с acc_index, обозначающим уникальный несчастный случай.

veh_data = {'acc_index':  ['001', '002', '002', '003', '003', '004', '005', '005', '006',
                           '006', '007', '007', '008', '008', '008', '009', '009', '009'],
         'veh_type': ['1', '1', '2', '1', '1', '1', '2', '2', '2', '3', '1', '2', '1', '1', 
                      '1', '1', '2', '2'] }

df_veh = pd.DataFrame (veh_data, columns = ['acc_index', 'veh_type'])       

ped_data = {'acc_index':  ['001', '002', '003', '004', '005', '006', '007', '008', '009'],
            'pedestrians': ['1', '2', '0', '1', '4', '3', '0', '1', '2'] }
df_ped = pd.DataFrame (ped_data, columns = ['acc_index', 'pedestrians'])

Я хочу подсчитать количество несчастных случаев (ПО УНИКАЛЬНОМУ acc_index ТОЛЬКО ОДИН РАЗ):

между автомобилями и велосипедами (veh_type==1 и veh_type==2)
между велосипедами и пешеходами (veh_type==1 и pedestrians>=1)
между автомобилями и пешеходами (veh_type==2 и pedestrians>=1)
между только автомобилями (veh_type==2 для того же acc_index)
между только велосипедами (veh_type==1 для того же acc_index)
между только пешеходами (pedestrians>=1 для того же acc_index)

Я пытался сделать это по-разному, но в итоге я получаю разные результаты поэтому я в замешательстве. Например, я пытался подсчитать количество несчастных случаев на велосипеде следующим образом:

df_bikes = df_veh[df_veh['veh_type']==1].groupby('acc_index').sum().reset_index()
bike_ped = pd.merge(df_bikes, df_ped, how='outer', on='acc_index')
bike_ped[(bike_ped['veh_type']==1) & (bike_ped['pedestrians']>=1)].groupby(
    'acc_index').sum().reset_index()[['acc_index', 'veh_type', 'pedestrians']]

Другой пример, это то, как я подсчитывал аварии между автомобилями и велосипедами благодаря комментариям в этом посте . Я считаю, что это правильно, по крайней мере. Я пытаюсь найти самый простой способ сделать это (но также отображать подсчитанные строки).

bike_car = df_veh[def_veh.groupby('acc_index')['veh_type'].
                transform(lambda g: not({1, 2} - {*g}))][['acc_index', 'veh_type']]
len(bike_car.groupby(['acc_index']).size().reset_index()))

Parfait · Answer 1 · 28 февраля 2020

Рассмотрите возможность поворота данных транспортного средства с помощью pivot_table, объединенного с groupby агрегацией пешеходов, а затем выполните необходимые query() вызовы, где каждый ряд представляет собой отдельный acc_index:

veh_dict = {'1': 'bicycle', '2': 'car', '3': 'bus'}

pvt_df = (df_veh.assign(val = 1)
                .pivot_table(index = 'acc_index', 
                            columns = 'veh_type', 
                            values = 'val', 
                            aggfunc='sum')
                .set_axis([veh_dict[i] for i in list('123')], 
                          axis = 'columns',  
                          inplace = False)
                .join(df_ped.assign(pedestrians = lambda x: x['pedestrians'].astype('int'))
                            .groupby('acc_index')['pedestrians']
                            .sum()
                            .to_frame(),
                      how = 'outer'
                     )

         )

pvt_df
#            bicycle  car  bus  pedestrians
# acc_index
# 001            1.0  NaN  NaN            1
# 002            1.0  1.0  NaN            2
# 003            2.0  NaN  NaN            0
# 004            1.0  NaN  NaN            1
# 005            NaN  2.0  NaN            4
# 006            NaN  1.0  1.0            3
# 007            1.0  1.0  NaN            0
# 008            3.0  NaN  NaN            1
# 009            1.0  2.0  NaN            2

Запросы

# BIKES AND CARS
pvt_df.query('(bicycle >= 1) & (car >= 1)')
#            bicycle  car  bus  pedestrians
# acc_index
# 002            1.0  1.0  0.0            2
# 007            1.0  1.0  0.0            0
# 009            1.0  2.0  0.0            2

# BIKES AND PEDESTRIANS
pvt_df.query('(bicycle >= 1) & (pedestrians >= 1)')
#            bicycle  car  bus  pedestrians
# acc_index
# 001            1.0  0.0  0.0            1
# 002            1.0  1.0  0.0            2
# 004            1.0  0.0  0.0            1
# 008            3.0  0.0  0.0            1
# 009            1.0  2.0  0.0            2

# CARS AND PEDESTRIANS
pvt_df.query('(car >= 1) & (pedestrians > 1)')
#            bicycle  car  bus  pedestrians
# acc_index
# 002            1.0  1.0  0.0            2
# 005            0.0  2.0  0.0            4
# 006            0.0  1.0  1.0            3
# 009            1.0  2.0  0.0            2

### ONLY CARS
pvt_df.query('(bicycle == 0) & (car >= 1) & (bus == 0) & (pedestrians == 0)')
# Empty DataFrame
# Columns: [bicycle, car, bus, pedestrians]
# Index: []

### ONLY BICYCLES
pvt_df.query('(bicycle >= 1) & (car == 0) & (bus == 0) & (pedestrians == 0)')
#            bicycle  car  bus  pedestrians
# acc_index
# 003            2.0  0.0  0.0            0

### ONLY PEDESTRIANS
pvt_df.query('(bicycle == 0) & (car == 0) & (bus == 0) & (pedestrians >= 1)')   
# Empty DataFrame
# Columns: [bicycle, car, bus, pedestrians]
# Index: []

Подсчет вхождения данных из 2 фреймов данных (связанных индексом) в Pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подсчет вхождения данных из 2 фреймов данных (связанных индексом) в Pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов