У меня есть два кадра данных, к которым я присоединяюсь ID
. df1
содержит аккуратно отформатированные имена:
ID Company Symbol
0 68243Q106 AA Inc AA
1 336901103 BB Inc BB
2 100564000 CC Inc CC
И df2
создается путем удаления данных с веб-сайта и присоединения к ID
.
Но иногда ID
с 1) неправильно введены на сайте (например, отсутствует ди git), или 2) новые ID
с, которые еще не существуют в df1
.
Investor Date ID Company Symbol
0 Pete 9/30/13 68243Q10 aa inc NaN
1 Mike 12/31/16 68243Q106 AA Inc AA
2 Pete 3/31/19 68243Q106 AA Inc AA
3 Pete 6/30/15 36901103 bb inc NaN
4 Pete 3/31/17 336901103 BB Inc BB
5 Mike 6/30/17 336901103 BB Inc BB
6 Pete 6/30/17 100564000 CC Inc CC
7 Mike 6/30/16 1O056400O NaN NaN
8 Pete 6/30/17 1111111 New NaN
- строка
0
, ID
отсутствует завершающий 6
(68243Q10
против 68243Q106
) - строка
3
, ID
отсутствует начальный 3
(36901103
против 336901103
) - строка
7
, ID
содержит некоторые "О" вместо нулей (1O056400O
против 100564000
) - строка 8, новый идентификатор
Мне интересно, как люди подойдут к этой проблеме. Я посмотрел на нечеткое совпадение, и, хотя он работает довольно хорошо, он также возвращает слишком много ложных срабатываний в тех случаях, когда это действительно новый идентификатор. Таким образом, хотя этот подход «исправляет» эту проблему, он одновременно создает и новую сложную проблему.