Частичная дедупликация в R на основе совпадения строковых значений - PullRequest
0 голосов
/ 15 ноября 2018

У меня есть датафрейм с именем 'reviews', подобный этому:

score_phrase    title   score   release_year    release_month   release_day

1 Удивительная LittleBigPlanet PS Vita 9 2012 9 12 2 Удивительная LittleBigPlanet PS Vita - Marvel Super Hero Edition 9 2012 9 12 3 Great Splice: Древо жизни 8.5 2012 9 12 4 Великолепный НХЛ 13 8.5 2012 9 11 5 Великолепный НХЛ 13 8.5 2012 9 11 6 Всего сражений: Сёгун 7 2012 9 11 7 Ужасный двойной дракон: Неон 3 2012 9 11 8 Удивительные войны гильдий 29 2012 9 11 9 Ужасный Двойной Дракон: Неон 3 2012 9 11 10 Всего хороших боевых сражений: Сёгун 7 2012 9 11

Цель: небольшое несоответствие / опечатка в значениях столбцов приводят к дублированию в записях.Здесь строка 1 и строка 2 являются дубликатами, а строка 2 должна быть отброшена после устранения дублирования.

Я использовал dedup() функцию пакета 'SCRUBR' для выполнения дедупликации, но в большом наборе данных я получаю неверное количество дубликатов, когда переключаю уровень допуска для сопоставления строк.

Дляпример:

partial_dup_data <- reviews[1:100,] %>% dedup(tolerance = 0.7) 
#count w/o duplicates: 90
attr(partial_dup_data, "dups") 
# count of identified duplicates: 16

Может кто-нибудь подсказать, что я делаю неправильно?Есть ли другой подход для достижения цели?

...