У меня очень большой фрейм данных (20.000.000+ строк), который содержит среди прочих столбец с именем «последовательность».
Столбец «последовательность» рассчитывается на основе временного ряда с применением нескольких условных операторов.Значение «2» обозначает начало последовательности, значение «3» обозначает конец последовательности, значение «1» обозначает точку данных в последовательности, а значение «4» обозначает точки данных, которые необходимо игнорировать.(Примечание: значения флага не обязательно должны быть 1,2,3,4)
Чего я хочу добиться - это непрерывного значения идентификатора (записанного в отдельном столбце - см. «Required_Id_Output» впример ниже), который маркирует фрагменты последовательностей от 2 до 3 уникальным способом (длина последовательности варьируется в диапазоне от 2 [только начало + конец] до 5000+ точек данных), чтобы иметь возможность выполнять дальнейшие групповые вычисления наотдельные последовательности.
index sequence desired_Id_Output
0 2 1
1 1 1
2 1 1
3 1 1
4 1 1
5 3 1
6 2 2
7 1 2
8 1 2
9 3 2
10 4 NaN
11 4 NaN
12 2 3
13 3 3
Заранее спасибо и БР!