Как вычесть строки в df на основе значения в другом столбце - PullRequest
0 голосов
/ 02 мая 2018

Я пытаюсь вычислить разницу в определенных строках на основе значений из других столбцов.

Используя приведенный ниже примерный фрейм данных, я хочу вычислить разницу в Time на основе значений в столбце Code. В частности, я хочу просмотреть и определить разницу во времени между B и A. Итак, Время в Б - Время в А.

Я могу сделать это вручную, используя функцию iloc, но я надеялся найти более эффективный способ. Особенно, если мне придется повторять этот процесс много раз.

import pandas as pd
import numpy as np

k = 5
N = 15

d = ({'Time' : np.random.randint(k, k + 100 , size=N),
    'Code' : ['A','x','B','x','A','x','B','x','A','x','B','x','A','x','B']})

df = pd.DataFrame(data=d)

Выход:

   Code  Time
0     A    89
1     x    39
2     B    24
3     x    62
4     A    83
5     x    57
6     B    69
7     x    10
8     A    87
9     x    62
10    B    86
11    x    11
12    A    54
13    x    44
14    B    71

Ожидаемый результат:

     diff
1    -65
2    -14
3    -1
4     17

Ответы [ 2 ]

0 голосов
/ 02 мая 2018

Сначала отфильтруйте по boolean indexing, затем вычтите по sub с reset_index для индекса по умолчанию для выравнивания Серии a и b и последний, если хотите, один столбец DataFrame добавьте to_frame:

a = df.loc[df['Code'] == 'A', 'Time'].reset_index(drop=True)
b = df.loc[df['Code'] == 'B', 'Time'].reset_index(drop=True)

Аналогичное альтернативное решение:

a = df.loc[df['Code'] == 'A'].reset_index()['Time']
b = df.loc[df['Code'] == 'B'].reset_index()['Time']

c = b.sub(a).to_frame('diff')
print (c)
   diff
0   -65
1   -14
2    -1
3    17

Последний для начала нового индекса с 1 add rename:

c = b.sub(a).to_frame('diff').rename(lambda x: x + 1)
print (c)
   diff
1   -65
2   -14
3    -1
4    17

Еще один подход, если необходимо рассчитывать больше различий, это изменить на unstack:

df = df.set_index(['Code', df.groupby('Code').cumcount() + 1])['Time'].unstack()
print (df)
         1     2     3     4     5     6     7
Code                                          
A     89.0  83.0  87.0  54.0   NaN   NaN   NaN
B     24.0  69.0  86.0  71.0   NaN   NaN   NaN
x     39.0  62.0  57.0  10.0  62.0  11.0  44.0

#last remove `NaN`s rows
c = df.loc['B'].sub(df.loc['A']).dropna()
print (c)
1   -65.0
2   -14.0
3    -1.0
4    17.0
dtype: float64

#subtract with NaNs values - fill_value=0 return non NaNs values
d = df.loc['x'].sub(df.loc['A'], fill_value=0)
print (d)
1   -50.0
2   -21.0
3   -30.0
4   -44.0
5    62.0
6    11.0
7    44.0
dtype: float64
0 голосов
/ 02 мая 2018

Если ваш Code является повторением 'A', 'x', 'B', 'x', вы можете просто использовать

>>> (df.Time[df.Code == 'B'].reset_index() - df.Time[df.Code == 'A'].reset_index())[['Time']]
    Time
0   -65
1   -14
2   -1
3   17

Но обратите внимание, что первоначальное предположение, что значения 'A' и 'B' чередуются, кажется хрупким.

Если вы хотите, чтобы индексы работали от 1 до 4, как в вашем вопросе, вы можете присвоить предыдущему значение diff, а затем использовать

diff.index += 1
>>> diff
    Time
1   -65
2   -14
3   -1
4   17
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...