У меня есть два Dataframes
, df1:
| ID | Invoice |
-------------------------
| X\191 | 4 |
| R\192 | 4 |
| 733 | 1 |
| X215 | 3 |
| BL000002 | 3 |
df2:
| ID | Invoice |
-------------------------
| X191 | 4 |
| X215 | 3 |
| BL000002 | 3 |
И я должен объединить их один в один, чтобы получить:
| ID | Invoice | ID |
-------------------------------------
| X\191 | 4 | X191 |
| X\192 | 4 | |
| 733 | 1 | |
| X215 | 3 | X215 |
| BL000002 | 3 | BL000002 |
Но когда я выполняю внешнее слияние, я получаю повторяющиеся значения
import pandas as pd
dict1 = {"ID": ["X\\191","R\\192","733","X215","BL000002"], "Inv": [4,4,1,3,3]}
df1 = pd.DataFrame.from_dict(dict1)
dict2 = {"ID": ["X191","X215","BL000002"], "Inv": [4,3,3]}
df2 = pd.DataFrame.from_dict(dict2)
some_df = pd.merge(df1, df2, on = 'Inv', how='outer')
Вывод выглядит следующим образом:
ID_x Inv ID_y
X\191 4 X191
X\192 4 X191
733 1 NaN
X215 3 X215
X215 3 BL000002
BL000002 3 X215
BL000002 3 BL000002
Как можно объединить так, чтобы я получил его для соединения один к одномуи не смешивать и сочетать.
Я не могу использовать никакие другие столбцы в слиянии, поскольку они будут различаться в реальных данных.
Редактировать и объяснять Извините.Я не был достаточно ясен.Идентификатор столбца не соответствует.Я не могу обещать, будет ли это всегда подстрока.Но значения счета должны быть одинаковыми.Это было введено человеком более года и около 15 тысяч строк.Мне нужно упорядочить их так, чтобы они с одинаковыми значениями счетов-фактур располагались рядом друг с другом, чтобы легче было вручную проверять, когда чего-то не хватает в одном из кадров данных (изначально лист Excel)