Нечеткое сопоставление без «мастер-таблицы» - PullRequest
0 голосов
/ 04 сентября 2018

Возможно ли выполнить нечеткое сопоставление, не имея таблицы желаемых результатов?

Например, стандартизация этих строк:

Lord Philip Harris
Lord Harris of Peckham
Lord Philip C. Harris
Philip Lord C Harris
Lord Phillip Harris of Peckham

в первое значение, последнее значение или что-то вроде «Филип Харрис» - не имеет значения, какое именно.

Я использовал пакет stringdist в R для добавления столбца к кадру данных, содержащего значение, которое является минимальным расстоянием от теста, но для этого у меня был список «правильных» данных.

Спасибо

...