Я работаю над грязным набором данных, где два столбца, которые мне нужно сопоставить, не отформатированы должным образом:
- «id» - это строка, часто состоящая из цифр, которая потенциально начинается с нуля
- "parent_id" представляет идентификатор родительского элемента строки, но он был отформатирован как int, поэтому начальные нули исчезли.
Я хочу найти, для каких строк "id" то же самое, что "parent_id". Однако мне не удается сопоставить его так:
df["is_the_same"] = (df["id"]==df["parent_id"])
, потому что некоторые из них не будут совпадать (например, идентификатор «01004» имеет «1004» в качестве parent_id и не будет соответствовать в этом случае )
Как я могу выбрать столбцы, у которых «id» равен «parent_id» после удаления потенциальных нулей?
Я также пробовал:
df["is_the_same"] = df["id"].str.endswith(df["parent_id"])
Но это кажется .str.endswith работает только с постоянными строками (другой столбец)