Question

Я изо всех сил пытаюсь понять, как объединить в R две таблицы, когда общие переменные не совсем похожи.

Для контекста я скачал два источника информации о политиках из Твиттера и администрации и создал два разных фрейма данных.В первом кадре данных (набор данных 1) у меня есть имена политиков, присутствующих в Twitter.Однако я не знаю, работают ли сейчас эти политики или нет.Чтобы обнаружить это, я мог бы использовать второй фрейм даты.Второй фрейм данных (набор данных 2) содержит имя и другую информацию о политиках, которые сейчас работают.Имя и фамилия - единственные переменные, содержащиеся в обеих таблицах.Две таблицы не имеют одинаковое количество строк.

Проблема:

Имена в первом наборе данных были указаны как одна переменная (имя + фамилия), тогда как во втором наборе данных имена были разделены на две переменные (фамилияи имя).Я использовал отдельный, чтобы отделить столбец имени в первых таблицах.Parliament_twitter_tempdata <- отдельное (Parliament_twitter_tempdata, col = name, into = c («firstname», «lastname»), extra = «merge»). Однако у меня проблемы с этим, так как оба набора данных имеют: <ul>
, составленный первымимена и составные фамилии
имя и фамилия в неправильном порядке

Я включил изображение части (от фамилии "J" до«M») обоих наборов данных, чтобы проиллюстрировать разницу между похожими значениями или инверсию фамилии, имени.

Как я могу улучшить свой код?

Имена в обеих таблицах не полностью похожи.Некоторые люди не написали официальное имя в Instagram.Есть ли какая-нибудь функция, которая могла бы сравнивать две таблицы, находить набор переменных, которые соответствуют примерно 80%, и заменять имя в кадре данных 1 (из Twitter) на официальное имя кадра данных 2?Ex.Набор данных 1: Мари Габур;Набор данных 2: Мари Габур Jolliet -> Заменить Мари Габур из набора данных 1 на Мари Габур

Может ли кто-нибудь помочь мне там?Большое спасибо !

[Часть набора данных 1 после разделения (фамилия от "J" до "M") 1 [Часть имени в наборе данных 2 (фамилия от "J" до "M"") 2

dca · Answer 1 · 01 мая 2019

Нечеткое совпадение может быть способом продвижения вперед:

https://cran.r -project.org / веб / пакеты / fuzzyjoin / fuzzyjoin.pdf

Также могут помочь функции очистки (например, использование toppper или удаление пробела на клавише).

Как объединить две таблицы разных номеров строк с приблизительными общими значениями? (используя R)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как объединить две таблицы разных номеров строк с приблизительными общими значениями? (используя R)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов