У меня есть два неровных кадра данных, которые имеют все одинаковые переменные, за исключением пары значений ID, которые варьируются от одного к другому.
Например, один из кадров данных, df1
выглядит следующим образом:
Name Name ID State Gen ID Unit ID
Nikki 9 AZ 1-1 1
Nikki 9 AZ 1-2 2
Nikki 9 AZ 1-3 3
Mondip 101 NY 1A 1A
Mondip 101 NY 1B 1B
James 11 CA 12-1 12
James 11 CA 13-1 13
Sandra 88 NJ 1 1
.
.
.
Другой кадр данных df2
выглядит следующим образом:
Name Name ID State Unit ID
Monte 97 PA 4-1
Monte 97 PA 4-2
Nikki Ltd 9 AZ 1
Nikki Ltd 9 AZ 2
Mondip 101 NY 1A
Mondip 101 NY 1B
James 11 CA 12-1
James 11 CA 13-1
.
.
.
Как видно, столбцы Gen ID
и Unit ID
как-то связано.Иногда Unit ID
в df2
может быть либо Gen ID
, либо Unit ID
в df1
.
. Я хочу создать новый фрейм данных или список из каждого набора Name
, Name ID
и State
, которые не не соответствуют df1
и df2
.Иногда имя слегка совпадает с Nikki
и Nikki Ltd
, поэтому мне нужно позаботиться об этом, используя Name ID
.
Например, вывод нового кадра данных df_missing
будет:
Name Name ID State Gen ID Unit ID
Monte 97 PA 4-1
Monte 97 PA 4-2
Sandra 88 NJ 1 1
Есть ли простой способ сделать это?