У меня есть два файла с данными о продажах, и я хочу проверить, совпадают ли номера продаж в первом файле с номерами продаж во втором файле. Но идентификатор продукта, используемый в каждом файле, различен. У меня есть 3-й файл с соответствием между старым идентификатором продукта и новым идентификатором продукта.
Старый файл продаж
Product ID Store ID Week ID Sales
a 1 201801 5
a 2 201801 4
a 2 201802 3
b 1 201801 3
b 2 201802 4
b 3 201801 2
c 2 201802 2
Новый файл продаж
Product ID Store ID Week ID Sales
X 1 201801 5
X 2 201801 4
X 2 201802 3
Y 1 201801 5
Y 2 201802 4
Y 3 201801 2
Z 2 201802 2
И файл соответствия старого идентификатора продукта / нового идентификатора продукта:
Old Product ID New Product ID
a X
b Y
c Z
Я хочу запустить скрипт или команду, которая могла бы проверить, одинаковы ли продажи для каждой комбинации продукта / магазина / недели в обоих файлах. То есть:
Если a и X обозначают один и тот же товар, то я хочу проверить, совпадают ли продажи для данного магазина и данной недели в обоих файлах.
Обратите внимание, что не все продукты, присутствующие в старом файле продаж, обязательно присутствуют в новом файле продаж.
Вывод должен выглядеть так:
Product ID Store ID Week ID Sales Diff
X 1 201801 0
X 2 201801 0
X 2 201802 0
Y 1 201801 2
Y 2 201802 0
Y 3 201801 0
Z 2 201802 0
Я подумываю о том, чтобы либо собрать все 3 файла в кучу фреймов данных pandas, а затем объединить и выполнить проверку с использованием утилит слияния и различий pandas, либо перенести файлы в некоторые таблицы красного смещения и использовать SQL для проверки. Но оба кажутся излишними. Есть ли более простой способ сделать это, используя утилиты командной строки / bash?