У меня есть список строк, которые выглядят так:
my_list = ['https://www.google.com/', 'http://www.google.com/',
'https://www.google.com', 'http://www.google.com']
Как вы можете видеть, они не одинаковы, но все они очень похожи.
У меня также есть функция, которая это:
from fuzzywuzzy import fuzz
def similar(a, b):
return fuzz.ratio(a,b)
Я хочу использовать эти функции и сказать что-то вроде:
for a,b in my_list:
print (a,b)
if similar(a,b) > 0.95:
my_list.remove(b)
Поэтому я пытаюсь удалить похожие строки поиска из списка, если они выше определенного коэффициент сходства. Я хочу сделать это так, чтобы в этом списке у меня был только первый URL, в этом случае my_list
будет иметь вид:
my_list = ['https://www.google.com/']