В настоящее время я ищу способы обнаружения дублирующих записей в наборах данных с использованием R. Я попытался найти некоторую реализацию алгоритма Sorted Neighbourhood по принципу Hernandez / Stolfo (1998), но безуспешно. Я нашел пакет RecordLinkage , который мне еще нужно изучить более глубоко. Это похоже на реализацию подхода Fellegi / Sunter. Однако он не имеет методов Sorted Neighborhood. Я что-то здесь не так или нет R-реализации метода Sorted Neighborhood?
EDIT_1: под «повторяющимися записями» я подразумеваю записи, которые могут немного отличаться, но относятся к одной и той же сущности, например можно поменять имя и фамилию, могут быть опечатки и т. д.