Как упорядочить повторяющиеся значения измерений в таблице данных? - PullRequest
0 голосов
/ 22 сентября 2018

У меня есть значения измерений в производственной линии, например, такие как:

import pandas as pd
import random
random.seed(2)
df = pd.DataFrame()
df['col1_date'] = pd.date_range('2018-09-01', periods=40, freq='D')
df['col2_id'] = pd.DataFrame(list(['A', 'B', 'C', 'D'] *10))
df['MeasuredValues'] = np.random.choice(10, 40)
df

В основном элементы, например, ['A', 'B', 'C', 'D'] измеряются по какому-либо параметру по мере продвижения по линии.Я пытаюсь добавить столбец в таблице, который дает мне для каждого элемента в col2_id последовательность измерений, например: когда сначала измеряется, я получаю 1st measurement, затем для 2-го измерения я получаю2nd measurement и так далее.Я могу сделать это вручную для маленькой таблицы, скажем, 100 строк в Excel, отсортировав col2_id, а затем col1_date.Очевидно, что для большого количества строк в тысячах это не имеет большого смысла.Затем я могу сравнить различные измерения для всех элементов в col2_id.Я понятия не имею, как это сделать в Pandas или Python.

Кто-нибудь может дать мне несколько советов?

Ответы [ 2 ]

0 голосов
/ 22 сентября 2018

groupby и rank

df.assign(
    meas_num=
    df.groupby('col2_id').col1_date.rank().apply('{:.0f}'.format).radd('meas ')
)

    col1_date col2_id  MeasuredValues meas_num
0  2018-09-01       A               1   meas 1
1  2018-09-02       B               3   meas 1
2  2018-09-03       C               9   meas 1
3  2018-09-04       D               7   meas 1
4  2018-09-05       A               3   meas 2
5  2018-09-06       B               5   meas 2
6  2018-09-07       C               5   meas 2
7  2018-09-08       D               2   meas 2
8  2018-09-09       A               4   meas 3
9  2018-09-10       B               0   meas 3
10 2018-09-11       C               2   meas 3
11 2018-09-12       D               0   meas 3
12 2018-09-13       A               8   meas 4
13 2018-09-14       B               5   meas 4
14 2018-09-15       C               2   meas 4
15 2018-09-16       D               0   meas 4
16 2018-09-17       A               7   meas 5
17 2018-09-18       B               1   meas 5
18 2018-09-19       C               3   meas 5
19 2018-09-20       D               7   meas 5
20 2018-09-21       A               9   meas 6
21 2018-09-22       B               5   meas 6
22 2018-09-23       C               7   meas 6
23 2018-09-24       D               7   meas 6
24 2018-09-25       A               9   meas 7
25 2018-09-26       B               3   meas 7
26 2018-09-27       C               2   meas 7
27 2018-09-28       D               9   meas 7
28 2018-09-29       A               1   meas 8
29 2018-09-30       B               8   meas 8
30 2018-10-01       C               3   meas 8
31 2018-10-02       D               8   meas 8
32 2018-10-03       A               6   meas 9
33 2018-10-04       B               4   meas 9
34 2018-10-05       C               1   meas 9
35 2018-10-06       D               2   meas 9
36 2018-10-07       A               5  meas 10
37 2018-10-08       B               9  meas 10
38 2018-10-09       C               9  meas 10
39 2018-10-10       D               1  meas 10
0 голосов
/ 22 сентября 2018

Если ваши даты отсортированы, вы можете сделать это, используя cumcount:

df['measurement_number'] = 'measurement '+(df.groupby('col2_id').cumcount()+1).astype(str)

Или:

df['measurement_number'] = (df.groupby('col2_id').cumcount()+1).map(lambda x: f'measurement {x}')

Оба дают вам:

>>> df
    col1_date col2_id  MeasuredValues measurement_number
0  2018-09-01       A               8      measurement 1
1  2018-09-02       B               8      measurement 1
2  2018-09-03       C               6      measurement 1
3  2018-09-04       D               2      measurement 1
4  2018-09-05       A               8      measurement 2
5  2018-09-06       B               7      measurement 2
6  2018-09-07       C               2      measurement 2
7  2018-09-08       D               1      measurement 2
8  2018-09-09       A               5      measurement 3
9  2018-09-10       B               4      measurement 3
10 2018-09-11       C               4      measurement 3
11 2018-09-12       D               5      measurement 3
12 2018-09-13       A               7      measurement 4
13 2018-09-14       B               3      measurement 4
14 2018-09-15       C               6      measurement 4
15 2018-09-16       D               4      measurement 4
16 2018-09-17       A               3      measurement 5
17 2018-09-18       B               7      measurement 5
18 2018-09-19       C               6      measurement 5
19 2018-09-20       D               1      measurement 5
20 2018-09-21       A               3      measurement 6
21 2018-09-22       B               5      measurement 6
22 2018-09-23       C               8      measurement 6
23 2018-09-24       D               4      measurement 6
24 2018-09-25       A               6      measurement 7
25 2018-09-26       B               3      measurement 7
26 2018-09-27       C               9      measurement 7
27 2018-09-28       D               2      measurement 7
28 2018-09-29       A               0      measurement 8
29 2018-09-30       B               4      measurement 8
30 2018-10-01       C               2      measurement 8
31 2018-10-02       D               4      measurement 8
32 2018-10-03       A               1      measurement 9
33 2018-10-04       B               7      measurement 9
34 2018-10-05       C               8      measurement 9
35 2018-10-06       D               2      measurement 9
36 2018-10-07       A               9     measurement 10
37 2018-10-08       B               8     measurement 10
38 2018-10-09       C               7     measurement 10
39 2018-10-10       D               1     measurement 10

Если ваши даты не отсортированы, сначала отсортируйте их.Сделайте то же самое, что и выше, но используйте:

df.sort_values('col1_date')

first.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...