У меня есть кадр данных, в котором есть строки с повторяющимися значениями в последовательностях.
Например:
df_raw
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14....
220 450 451 456 470 224 220 223 221 340 224 220 223 221 340.....
234 333 453 460 551 226 212 115 117 315 226 212 115 117 315.....
Как видите, столбцы 0-6
являются уникальными в этом примере, а затем мы повторили последовательности [220 223 221 340 224]
для row 1
из столбцов 6-10
, а затем снова из 11-14
.
Этот шаблон такой же для row 2
.
Я хотел бы удалить повторяющиеся последовательности для каждой строки моего информационного кадра (более чем 2) для вывода, подобного этому:
df_clean
0 1 2 3 4 5 6 7 8 9.....
220 450 451 456 470 224 220 223 221 340.....
234 333 453 460 551 226 212 115 117 315.....
Я следую с ......
, потому чтостолбцы длинные и имеют несколько повторений для каждой строки.Я также не могу предположить, что каждая строка имеет одинаковое количество повторяющихся последовательностей, и что каждая последовательность начинается с одинакового индекса или заканчивается одинаковым индексом.
Есть ли простой способ сделать это с помощью pandas
или даже массив numpy?