функция соответствия в подгруппе - PullRequest
0 голосов
/ 23 января 2020

У меня есть два кадра данных a и b, оба являются списками профессий. Я хочу сопоставить каждое занятие в df a с самым близким совпадением в df b. Я использовал функцию amatch из пакета stringdist.

amatch(a$occupation, b$occupation, nomatch = NA_integer_, matchNA = TRUE, method = "lv",
       useBytes = FALSE, weight = c(d = 1, i = 1, s = 1, t = 1), maxDist = 10,
       q = 1, p = 0, bt = 0, nthread = getOption("sd_num_thread")) -> c

Это работает нормально, но я заметил, что получу лучшие результаты, если найду наилучшее совпадение среди профессий, начинающихся с того же слова. Например, если в df a у меня есть профессия «Медсестра в психиатрической больнице», я хочу найти совпадение только по профессиям в df b, начиная с «Медсестра».

...