Возможно ли выполнить нечеткое сопоставление, не имея таблицы желаемых результатов?
Например, стандартизация этих строк:
Lord Philip Harris
Lord Harris of Peckham
Lord Philip C. Harris
Philip Lord C Harris
Lord Phillip Harris of Peckham
в первое значение, последнее значение или что-то вроде «Филип Харрис» - не имеет значения, какое именно.
Я использовал пакет stringdist в R для добавления столбца к кадру данных, содержащего значение, которое является минимальным расстоянием от теста, но для этого у меня был список «правильных» данных.
Спасибо