У меня есть такой набор данных:
Column1 Column2
a bc cdr
cd r ab c
bose beats
bea ts bo se
i phone sam sung
samsung iphone
Если вы заметили, что оба столбца содержат почти одинаковые слова, но различаются по формату и имеют пробелы в них. Я хочу, чтобы такие методы, как косинусное сходство или сопоставление последовательностей, соответствовали этим столбцам, чтобы результаты выглядели так:
column 1 column 2
a bc ab c
cd r cdr
bose bo se
bea ts beats
i phone iphone
samsung sam sung
Пожалуйста, не надо, это просто пример данных, строки более сложные, чем эти.
Как я могу использовать такие пакеты, как Cosine Similarity и Sequence Matcher, чтобы это произошло?