Я работаю над хэштегами в твиттере и уже подсчитал, сколько раз они появляются в моем csv-файле.Мой CSV-файл выглядит следующим образом:
GilletsJaunes, 100
Macron, 50
gilletsjaune, 20
tax, 10
Теперь я хотел бы сгруппировать 2 близких термина, таких как «GilletsJaunes» и «gilletsjaune», используя библиотеку fuzzywuzzy.Если близость между двумя терминами превышает 80, то их значение добавляется только в один из двух терминов, а другой удаляется.Это даст:
GilletsJaunes, 120
Macron, 50
tax, 10
Для использования "fuzzywuzzy":
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
fuzz.ratio("GiletsJaunes", "giletsjaune")
82 #output