Я хочу объединить две таблицы .. однако данные, к которым я хочу присоединиться, не совпадают точно .. объединение имен игроков НФЛ ..
наборы данных ниже ..
> dput(att75a)
structure(list(rusher_player_name = c("A.Ekeler", "A.Jones",
"A.Kamara", "A.Mattison", "A.Peterson", "B.Hill"), mean_epa = c(-0.110459963350783,
0.0334332018597805, -0.119488111742492, -0.155261835310445, -0.123485646124451,
-0.0689611296359916), success_rate = c(0.357664233576642, 0.40495867768595,
0.401129943502825, 0.283018867924528, 0.322727272727273, 0.35
), plays = c(137L, 242L, 177L, 106L, 220L, 80L)), class = c("tbl_df",
"tbl", "data.frame"), row.names = c(NA, -6L))
> dput(rb2019capa)
structure(list(rusher_player_name = c("Aaron Jones", "Adrian Peterson",
"Alexander Mattison", "Alvin Kamara", "Austin Ekeler", "Brian Hill"
), Team = c("Packers", "Redskins", "Vikings", "Saints", "Chargers",
"Falcons"), `Salary Cap Value` = c(695487, 1780000, 700545, 1050693,
646668, 645000), `Cash Spent` = c(645000, 2530000, 1317180, 807500,
645000, 645000)), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA,
-6L))
например, я пытаюсь присоединиться к А. Маттисону на Александре Маттисоне ... и так далее ...
Я экспериментировал со stringdist и fuzzyjoin, но не смог решить мою проблему ..
пожалуйста, примите во внимание ... взяли заголовок () каждого набора данных, чтобы сконцентрироваться в вопросе, задавая руководящие принципы .. исходные наборы данных имеют длину 51 об. и 168 obs ... это повлияет на то, как выполняется объединение?
Как лучше всего go очистить эти имена?
спасибо за ваше время ..