Техника, которую я обычно использую, довольно надежна и относительно нечувствительна к упорядочению, пунктуации и т. Д. Она основана на объектах, называемых «n-граммами». Если n = 2, «биграммы». Например:
"Adrian Bruce" --> ("Ad","dr","ri","ia","an","n "," B","Br","ru","uc","ce")
"Bruce Adrian" --> ("Br","ru","uc","ce","e "," A","Ad","dr","ri","ia","an")
Каждая строка имеет 11 биграмм. 9 из них являются общими. Таким образом, показатель сходства очень высок: 9/11 или 0,818, где 1.000 - идеальное совпадение.
Я не очень знаком с R, но если пакет не существует, этот метод очень легко закодировать. Вы можете написать код, который перебирает биграммы строки 1 и подсчитывает, сколько их содержится в строке 2.