Исправление данных в больших фреймах данных - PullRequest
0 голосов
/ 29 марта 2020

У меня есть два кадра данных, к которым я присоединяюсь ID. df1 содержит аккуратно отформатированные имена:

          ID Company Symbol
0  68243Q106  AA Inc     AA
1  336901103  BB Inc     BB
2  100564000  CC Inc     CC

И df2 создается путем удаления данных с веб-сайта и присоединения к ID.

Но иногда ID с 1) неправильно введены на сайте (например, отсутствует ди git), или 2) новые ID с, которые еще не существуют в df1 .

  Investor      Date         ID Company Symbol
0     Pete   9/30/13   68243Q10  aa inc    NaN
1     Mike  12/31/16  68243Q106  AA Inc     AA
2     Pete   3/31/19  68243Q106  AA Inc     AA
3     Pete   6/30/15   36901103  bb inc    NaN
4     Pete   3/31/17  336901103  BB Inc     BB
5     Mike   6/30/17  336901103  BB Inc     BB
6     Pete   6/30/17  100564000  CC Inc     CC
7     Mike   6/30/16  1O056400O     NaN    NaN
8     Pete   6/30/17    1111111     New    NaN
  • строка 0, ID отсутствует завершающий 6 (68243Q10 против 68243Q106)
  • строка 3, ID отсутствует начальный 3 (36901103 против 336901103)
  • строка 7, ID содержит некоторые "О" вместо нулей (1O056400O против 100564000 )
  • строка 8, новый идентификатор

Мне интересно, как люди подойдут к этой проблеме. Я посмотрел на нечеткое совпадение, и, хотя он работает довольно хорошо, он также возвращает слишком много ложных срабатываний в тех случаях, когда это действительно новый идентификатор. Таким образом, хотя этот подход «исправляет» эту проблему, он одновременно создает и новую сложную проблему.

...