У меня есть значения измерений в производственной линии, например, такие как:
import pandas as pd
import random
random.seed(2)
df = pd.DataFrame()
df['col1_date'] = pd.date_range('2018-09-01', periods=40, freq='D')
df['col2_id'] = pd.DataFrame(list(['A', 'B', 'C', 'D'] *10))
df['MeasuredValues'] = np.random.choice(10, 40)
df
В основном элементы, например, ['A', 'B', 'C', 'D'] измеряются по какому-либо параметру по мере продвижения по линии.Я пытаюсь добавить столбец в таблице, который дает мне для каждого элемента в col2_id
последовательность измерений, например: когда сначала измеряется, я получаю 1st measurement
, затем для 2-го измерения я получаю2nd measurement
и так далее.Я могу сделать это вручную для маленькой таблицы, скажем, 100 строк в Excel, отсортировав col2_id
, а затем col1_date
.Очевидно, что для большого количества строк в тысячах это не имеет большого смысла.Затем я могу сравнить различные измерения для всех элементов в col2_id
.Я понятия не имею, как это сделать в Pandas или Python.
Кто-нибудь может дать мне несколько советов?