левое соединение с использованием stringdist_join () возвращает больше строк, чем началось. - PullRequest
0 голосов
/ 05 ноября 2018

Я просто работаю над левым соединением с помощью stringdist_join (), и у меня возникли проблемы, поскольку в моих выходных данных больше строк, чем в моем исходном «левом» фрейме данных.

  nrow(records_nona)
   #output : 603

  nrow(institutions)
  # output : 981

  records_nona <- stringdist_left_join(records_nona, institutions, 
   by = c("tm_1_undergradu" = "Institution.Name"))

  nrow(records_nona)
  # output: 635

Я не уверен, что я мог испортить здесь, чтобы это было возможно. Или мое понимание левых соединений неверно. Любое руководство будет оценено, спасибо.

1 Ответ

0 голосов
/ 05 ноября 2018

Мне удалось выяснить решение, левое соединение дало дубликаты из-за приближения объединения, поэтому мне просто нужно было уменьшить max_dist = 1. (по умолчанию max_dist = 2). И теперь у меня есть правильное количество строк.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...