Я изо всех сил пытаюсь понять, как объединить в R две таблицы, когда общие переменные не совсем похожи.
Для контекста я скачал два источника информации о политиках из Твиттера и администрации и создал два разных фрейма данных.В первом кадре данных (набор данных 1) у меня есть имена политиков, присутствующих в Twitter.Однако я не знаю, работают ли сейчас эти политики или нет.Чтобы обнаружить это, я мог бы использовать второй фрейм даты.Второй фрейм данных (набор данных 2) содержит имя и другую информацию о политиках, которые сейчас работают.Имя и фамилия - единственные переменные, содержащиеся в обеих таблицах.Две таблицы не имеют одинаковое количество строк.
Проблема:
- Имена в первом наборе данных были указаны как одна переменная (имя + фамилия), тогда как во втором наборе данных имена были разделены на две переменные (фамилияи имя).Я использовал отдельный, чтобы отделить столбец имени в первых таблицах.Parliament_twitter_tempdata <- отдельное (Parliament_twitter_tempdata, col = name, into = c («firstname», «lastname»), extra = «merge»). Однако у меня проблемы с этим, так как оба набора данных имеют: <ul>
- , составленный первымимена и составные фамилии
- имя и фамилия в неправильном порядке
Я включил изображение части (от фамилии "J" до«M») обоих наборов данных, чтобы проиллюстрировать разницу между похожими значениями или инверсию фамилии, имени.
Как я могу улучшить свой код?
Имена в обеих таблицах не полностью похожи.Некоторые люди не написали официальное имя в Instagram.Есть ли какая-нибудь функция, которая могла бы сравнивать две таблицы, находить набор переменных, которые соответствуют примерно 80%, и заменять имя в кадре данных 1 (из Twitter) на официальное имя кадра данных 2?Ex.Набор данных 1: Мари Габур;Набор данных 2: Мари Габур Jolliet -> Заменить Мари Габур из набора данных 1 на Мари Габур
Может ли кто-нибудь помочь мне там?Большое спасибо !
[Часть набора данных 1 после разделения (фамилия от "J" до "M") 1 [Часть имени в наборе данных 2 (фамилия от "J" до "M"") 2