У меня есть датафрейм с именем 'reviews', подобный этому:
score_phrase title score release_year release_month release_day
1 Удивительная LittleBigPlanet PS Vita 9 2012 9 12 2 Удивительная LittleBigPlanet PS Vita - Marvel Super Hero Edition 9 2012 9 12 3 Great Splice: Древо жизни 8.5 2012 9 12 4 Великолепный НХЛ 13 8.5 2012 9 11 5 Великолепный НХЛ 13 8.5 2012 9 11 6 Всего сражений: Сёгун 7 2012 9 11 7 Ужасный двойной дракон: Неон 3 2012 9 11 8 Удивительные войны гильдий 29 2012 9 11 9 Ужасный Двойной Дракон: Неон 3 2012 9 11 10 Всего хороших боевых сражений: Сёгун 7 2012 9 11
Цель: небольшое несоответствие / опечатка в значениях столбцов приводят к дублированию в записях.Здесь строка 1 и строка 2 являются дубликатами, а строка 2 должна быть отброшена после устранения дублирования.
Я использовал dedup()
функцию пакета 'SCRUBR' для выполнения дедупликации, но в большом наборе данных я получаю неверное количество дубликатов, когда переключаю уровень допуска для сопоставления строк.
Дляпример:
partial_dup_data <- reviews[1:100,] %>% dedup(tolerance = 0.7)
#count w/o duplicates: 90
attr(partial_dup_data, "dups")
# count of identified duplicates: 16
Может кто-нибудь подсказать, что я делаю неправильно?Есть ли другой подход для достижения цели?