Нет отсортированного алгоритма соседства в R? - PullRequest
0 голосов
/ 30 августа 2018

В настоящее время я ищу способы обнаружения дублирующих записей в наборах данных с использованием R. Я попытался найти некоторую реализацию алгоритма Sorted Neighbourhood по принципу Hernandez / Stolfo (1998), но безуспешно. Я нашел пакет RecordLinkage , который мне еще нужно изучить более глубоко. Это похоже на реализацию подхода Fellegi / Sunter. Однако он не имеет методов Sorted Neighborhood. Я что-то здесь не так или нет R-реализации метода Sorted Neighborhood?

EDIT_1: под «повторяющимися записями» я подразумеваю записи, которые могут немного отличаться, но относятся к одной и той же сущности, например можно поменять имя и фамилию, могут быть опечатки и т. д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...