Запись связи с несколькими наборами данных - PullRequest
0 голосов
/ 06 февраля 2019

Проблема

fastLink и RecordLinkage очень хорошо справляются с сопоставлением записей (строк) из базы данных A в базу данных B и наоборот.Разработчики работают над расширением от сопоставления только 2 баз данных до нескольких баз данных.Простой пример того, как я привел здесь .

В то же время, как мы будем сопоставлять несколько фреймов данных?Если, например, у меня есть несколько медицинских карт пациентов из клиник A, B, C, D, E, F, и я хочу объединить их в одну.

Воспроизводимый пример:

dfA <- 
structure(list(fname = c("Jafar", "Nemo", "Simba", "Belle", "Nala", 
"Jasmine"), lname = c("Evil", "Water", "King", "Beauty", "Princess", 
"Princess"), gender = c("M", "M", "M", "F", "F", "F"), dob = c(1987, 
2000, 2011, 1989, 1970, 1989), city = c("Arabtown", "Atlantic", 
"Sahara", "Nice", "Sahara", "Arabtown")), row.names = c(NA, -6L
), class = c("tbl_df", "tbl", "data.frame"))
dfB <- 
structure(list(fname = c("Jafar Jr", "Nemo", "Simba", "Belle", 
"Nala", "Jasmine"), lname = c("Evil", "Waterson", "King", "Beauty", 
"Princess", "Princess of Arabtown"), gender = c("M", "M", "M", 
"F", "F", "F"), dob = c(NA, 2000, 2011, NA, NA, 1989), city = c("Arabtown", 
"Atlantica", "Sahara", "Nice-France", "Sahara", "Arabia")), row.names = c(NA, 
-6L), class = c("tbl_df", "tbl", "data.frame"))
dfC <- 
structure(list(fname = c("Jafar Jr", "Fishy", "Lion", "Belle", 
"Sarabi", "Jasmine"), lname = c("Evil", "Waterpal", "King", "Beauty", 
"Queen", NA), gender = c("M", "M", NA, "F", "F", "F"), dob = c(NA, 
2000, 2011, NA, 1940, 1989), city = c("Arabia", NA, "Sahara", 
"France", "Sahara", NA)), row.names = c(NA, -6L), class = c("tbl_df", 
"tbl", "data.frame"))
dfD <- 
structure(list(fname = c("Jafar Jr", "Nemo", "Simba", "Belle", 
"Sarabi", "Jasmine"), lname = c("Evil", "Waterson", "King", "Beast", 
"Queen", "Evil"), gender = c("M", "M", "M", "F", "F", "M"), dob = c(NA, 
2000, 2011, 1989, NA, 1989), city = c("Arabtown", "Atlantica", 
"Sahara", NA, "Sahara", "Arabtown")), row.names = c(NA, -6L), class = c("tbl_df", 
"tbl", "data.frame"))
dfE <- 
structure(list(fname = c("Jafar Jr", "Nemo", "Simba", "Belle", 
"Nala", "Aladdin"), lname = c("Evil", "Pateron", NA, "Gaston", 
NA, "Streetrat"), gender = c("M", NA, "M", "F", "F", "M"), dob = c(1987, 
NA, NA, NA, 1970, 1989), city = c("Arabtown", "Atlantica", "Sahara", 
"France", "Sahara", "Arabia")), row.names = c(NA, -6L), class = c("tbl_df", 
"tbl", "data.frame"))
dfF <- 
structure(list(fname = c("Jafar Jr", "Nemo", "Simba", "Belle", 
"Nala", "Al"), lname = c("Evil", "Waterson", "Dead", "Beauty", 
"Princess", "Streetrat"), gender = c("M", "M", NA, "F", "F", 
"M"), dob = c(1987, 2000, 2011, NA, NA, 1989), city = c("Arabia", 
"Atlantic", "Sahara", "Nice-France", "Sahara", "Arabia")), row.names = c(NA, 
-6L), class = c("tbl_df", "tbl", "data.frame"))

Ожидаемый результат:

В конце я хочу уникальные идентифицированные записи:

1 Jafar   Evil     M       1987 Arabtown
2 Nemo    Water    M       2000 Atlantic
3 Simba   King     M       2011 Sahara  
4 Belle   Beauty   F       1989 Nice    
5 Nala    Princess F       1970 Sahara  
6 Jasmine Princess F       1989 Arabtown
7 Sarabi   Queen    F       1940 Sahara
8 Aladdin  Streetrat M       1989 Arabia   

Даже если результатне так чисто, как указано выше, все в порядке.Цель состоит в том, чтобы найти единую запись из всех 6 записей и принадлежать одному и тому же объекту.Оба fastLink & RecordLinkage позаботятся о дедупликации (удалении дубликатов).

Мне нужна помощь, это мышление / подход / метод для решения более чем 2базы данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...