R: Reclin Package: есть ли способ сохранить веса, сгенерированные в Score_problink () и используемые в select_n_to_m () после использования функции link ()? - PullRequest
0 голосов
/ 22 апреля 2020

Я пытаюсь установить связь между двумя наборами данных, содержащими названия компаний. Хотя Reclin действительно очень хорошо справляется, связанные данные требуют некоторой ручной очистки, и, поскольку мне, скорее всего, придется очищать около 3000 строк в день или 2, было бы здорово сохранить веса, сгенерированные в процессе reclin, как показано ниже. :

CH_ecorda_to_Patstat_left <- pair_blocking(companies_x, companies_y) %>%
  compare_pairs(by= "nameor", default_comparator = jaro_winkler()) %>%
  score_problink() %>%
  select_n_to_m()%>%
  link(all_x=TRUE, all_y = FALSE)

Я знаю, что эти веса сохраняются до тех пор, пока я не использую функцию link (). Я хотел бы добавить веса, основанные для сравнения переменной "nameor", чтобы я мог использовать эти веса для упорядочения данных в порядке возрастания, от наименьшего веса к наибольшему весу, чтобы быстрее находить ошибки в попытке сопоставления.

Для контекста: мне нужно выяснить, сколько companies_x передало патенты в базе данных патентов companies_y. Мне не нужно знать, как часто они их передают, просто есть ли они вообще. Поэтому мне нужны совпадения от x до y, однако я не знаю истинного количества совпадений, и не у каждой компании companies_x будет совпадение, поэтому потребуется некоторая ручная очистка, так как n_to_m вызывает совпадение для каждой записи, даже если должно быть нет.

...