Эта же функция есть в ссылке на Mako212, хотя я хочу дать некоторые пояснения, поскольку иногда я использую этот пакет, он может быть весьма полезен.Мы будем использовать функцию levenshteinSim()
из пакета RecordLinkage
.
Пакет:
install.packages("RecordLinkage")
library(RecordLinkage)
Найти эти 90% совпадения:
data <- c("tcgartyu", "tcgart", "tckael", "tcgatcgatc", "tcgatcgatcg")
[1] "tcgartyu" "tcgart" "tckael" "tcgatcgatc" "tcgatcgatcg"
matches <- levenshteinSim('tcgatcgatcga', data)
[1] 0.42 0.42 0.25 0.83 0.92
matches_90 <- matches > 0.9
[1] FALSE FALSE FALSE FALSE TRUE
Таким образом, с помощью этой функции вы сможете получить строки, которые соответствуют 90% (или больше, как в моем примере).Затем вы можете использовать эти% совпадения так, как вы хотели.
Обратите внимание, что аргументы str1
и str2
из функции levenshteinSim()
должны быть символьными векторами.
Длядополнительная информация идет по https://cran.r -project.org / package = RecordLinkage .