У меня есть две строки, которые я хочу составить с помощью tokenize, а затем сравнить их на различия
s1 = 'one two shmoo'
s2 = 'one one two'
Моей первой мыслью было преобразовать их оба в collections.Counter
объекты, обернуть их в pd.Series
и вычестьразница.
import pandas as pd
from collections import Counter
def counter_series(s):
return pd.Series(Counter(s.split(' ')))
counter_series(s2) - counter_series(s1)
Но выходные данные показывают, что эта разница не обеспечивает подсчет слов, которых нет в обеих строках:
one 1.0
shmoo NaN
two 0.0
dtype: float64
Как включитьнедостающие счета?Например, в выводе выше shmoo
также должно быть 1. Решение не должно использовать pandas
.