Я пытаюсь сравнить тексты с разных сайтов друг с другом. У меня есть список текста, полученный из столбца в кадре данных. Чтобы сравнить тексты в этом списке, я попытался использовать сходство (я не знаю, есть ли другой способ сделать то же самое). Это код:
from difflib import SequenceMatcher
titles = filtered_dataset['Titles'].tolist()
def similar(a, b):
return SequenceMatcher(None, a, b).ratio()
def get_jaccard_sim(str1, str2):
a = set(str1.split())
b = set(str2.split())
c = a.intersection(b)
return float(len(c)) / (len(a) + len(b) - len(c))
similarities=[]
j_similarities=[]
for title in titles:
similarity=similar(title, title+1)
jacc_similarity=get_jaccard_sim(title, title+1) # I would like to compare the first text to the others; then the second one, and so on...
Я получил следующую ошибку:
TypeError: can only concatenate str (not "int") to str
из-за
similarity=similar(title, title+1)
jacc_similarity=get_jaccard_sim(title, title+1)
Не могли бы вы помочь мне исправить ошибку сравнить тексты?