Я хочу объединить два csv-файла с футбольными данными.Они содержат разные данные одной и той же и разных игр (частичное совпадение).Обычно я делаю слияние с df.merge, но проблема в том, что номенклатура отличается для некоторых команд в двух наборах данных.Например, «Атлетик Бильбао» называется «Клуб Атлетик» во втором сете.
Поэтому я хотел бы нормировать имена команд для двух наборов данных, чтобы можно было выполнять простую операцию df.merge с датами и именами команд.В настоящий момент это приведет к дополнительным строкам, когда у команды разные имена в двух сетах.
Итак, мой главный вопрос: как я могу легко нормировать названия команд в двух наборах, не анализируя все различия «вручную» и жесткие «операции замены» в одном из наборов?
Dataset1 доступен для скачивания здесь: https://data.fivethirtyeight.com/#soccer-spi Dataset2 не доступен свободно, но выглядит так:
hometeam awayteam date homeproba drawproba awayproba homexg awayxg
Manchester United Leicester 2018-08-10 22:00:00 0.2812 0.3275 0.3913 1.5137 1.73813
- Редактировать после первых комментариев -
Итак, главный вопрос: как я могу автоматически анализировать различия в именовании двух наборов данных?Полезные факты:
- Поскольку наборы проводят целые сезоны, совпадение для названия команды составляет не менее 30+ игр.
- Большинство команд имеют одинаковые имена, различия в именах меньшечасть названия команды.
- Большинство различий в именах имеют хотя бы общую подстроку.
- В обоих наборах данных содержится информация о дате игр.
- Мы знаем, что команда играет только одну игру в день.
Итак, если Dataset1 говорит:
1.1.2018 Real - Atletic Club
И Dataset2 говорит:
1.1.2018 Real - Atletic Bilbao
Мы должны быть в состоянии проанализировать это: {'Atletic Club':«Атлетик Бильбао»}