У меня есть два CSV-файла, которые я конвертировал из файла JSON (скопируйте текст в EXCEL и конвертируйте в CSV-файл), формат немного запутанный, я хочу сравнить каждую целую строку по номеру ID, но проблема в IDчисло находится в разных столбцах для каждой строки, и я хочу напечатать разницу между двумя строками, которые имеют одинаковый идентификационный номер.
Вот пример данных (я не могу переименовать каждый столбец, потому что каждый столбец имеет разныезначения переменных):
CSV_01:
age 10 height 150 ID 1001 sex F
age 10 height 150 ID 1001 sex M
ID 1001 height 150 age 12 sex M
age 10 ID 2002 height 151 sex F
age 10 height 150 ID 2002 sex M
CSV_02:
age 10 height 150 ID 2002 sex F
age 10 height 150 ID 1001 sex M
ID 1001 height 150 age 12 sex M
age 10 ID 1001 height 151 sex F
age 10 height 150 ID 2002 sex M
У меня почти 1000 строк и 500 столбцов (и для каждой строки он также содержит повторяющиеся идентичные идентификаторы)Примерно так: возраст 10 рост 150 ID 1001 пол M ... ID 1001 ...
Но я предполагаю, что это не имеет значения, но переменные имеют разные порядки, что означает, что в конечном итоге я хочу сравнить первые 3 строки в CVS_01 с 2-я, 3-я, 4-я строка в CSV_02 (потому что они имеют одинаковый идентификатор), но это всего лишь пример, поэтому в моем случае это должны быть разные номера строкларнабор данных ge.
Вот что я попробовал после импорта файлов CSV в Python:
resultBool01 = (CSV_01 != CSV_02).stack() # Create Frame of comparison booleans
resultdiff01 = pd.concat([CSV_01.stack()[resultBool01], CSV_02.stack()[resultBool01]],
axis=1)
resultdiff01.columns=["output_01", "output_02"]
Это дало мне разницу между каждой строкой (то есть: первая строка между двумя файлами), но это не то, что я хочу, потому что в первом ряду у них разные ID. Я застрял на несколько дней, не уверен, что это правильное направление, но это может быть сложнее, если я сравниваю файлы json или txt. Кто-нибудь может мне помочь? Большое спасибо.