Соответствие похожих ячеек в панде - PullRequest
0 голосов
/ 23 октября 2019

Проблема в том, что у меня большой набор данных, который содержит информацию о компаниях, что-то вроде этого


          Company Name  Company ID  smth else
1        FALCON LTD EU           2         10
2  FALCON LTD (EUROPE)           1          2
3      MAGIC (EU ZONE)           3          1
4            MAGIC LTD           4          8

Как вы можете видеть, у нас есть некоторые компании, которые имеют другое название компании, но это те же компанииИтак, проблема в том, как объединить эти компании в одну и получить что-то вроде этого?

 Company Name  Company ID  smth else
1   FALCON LTD           1         12
2    MAGIC LTD           2          9 

Так что мне нужно объединить компании, если большая часть его имен похожа, или если одно имя состоит из другого,я ищу какое-то универсальное решение, потому что набор данных очень большой, например, мне нужно

SUPERNOVA INTERNATIONAL LIMITED = SUPERNOVA INTERNATIONAL LTD = SUPERNOVA INTERNATIONAL LIMITED (EU) = СУПЕРНОВА ИНТЕРНЕЙШНЛ ЛИМИТЕД или = СУПЕРНОВА ИНТЕРНЕЙШНЛ ЛИМИТЕД

но я все еще не знаю, как это сделать автоматически, а не вручную

...