У меня есть несколько CSV-файлов, которые были созданы с помощью токенизации кода. Эти файлы содержат ключевые слова в верхнем и нижнем регистре. Я хотел бы объединить все эти файлы в одном кадре данных, который содержит все уникальные значения (сумма) в нижнем регистре. Что бы вы предложили, чтобы получить результат ниже?
Начальный DF:
+---+---+----+-----+
| a | b | A | B |
+---+---+----+-----+
| 1 | 2 | 3 | 1 |
| 2 | 1 | 3 | 1 |
+---+---+----+-----+
Результат
+---+---+
| a | b |
+---+---+
| 4 | 3 |
| 5 | 2 |
+---+---+
У меня нет доступа к необработанным данным, из которых были созданы файлы CSV, поэтому я не могу исправить это на более раннем этапе. В настоящий момент я попытался сопоставить .lower () с заголовками данных, которые я создаю, но он возвращает отдельные столбцы с одинаковыми именами, например:

Использование панд не обязательно. Я думал о преобразовании файлов CSV в словари, а затем попробовать описанную выше процедуру (оказывается, это гораздо сложнее, чем я думал), или использовать списки. Кроме того, group by не выполняет эту работу, поскольку удаляет неповторяющиеся имена столбцов. Любой подход приветствуется.