Удаление дубликатов на основе повторяющихся индексов столбцов Python - PullRequest
1 голос
/ 13 мая 2019

У меня есть кадр данных, в котором есть строки с повторяющимися значениями в последовательностях.

Например:

df_raw

0      1      2      3      4      5      6      7      8      9      10     11     12     13     14....
220    450    451    456    470    224    220    223    221    340    224    220    223    221    340.....
234    333    453    460    551    226    212    115    117    315    226    212    115    117    315.....

Как видите, столбцы 0-6 являются уникальными в этом примере, а затем мы повторили последовательности [220 223 221 340 224] для row 1 из столбцов 6-10, а затем снова из 11-14.

Этот шаблон такой же для row 2.

Я хотел бы удалить повторяющиеся последовательности для каждой строки моего информационного кадра (более чем 2) для вывода, подобного этому:

df_clean

0      1      2      3      4      5      6      7      8      9.....
220    450    451    456    470    224    220    223    221    340.....
234    333    453    460    551    226    212    115    117    315.....

Я следую с ......, потому чтостолбцы длинные и имеют несколько повторений для каждой строки.Я также не могу предположить, что каждая строка имеет одинаковое количество повторяющихся последовательностей, и что каждая последовательность начинается с одинакового индекса или заканчивается одинаковым индексом.

Есть ли простой способ сделать это с помощью pandasили даже массив numpy?

...