У меня есть набор данных, в котором мне нужно классифицировать данные, используя единицы измерения, например
UNITS PRICE
pieces 100
piece 70
peice 50
1 pc 50
pics 60
single piece 50
Предположение: кусочки и кусочки могут рассматриваться как одинаковые
Здесь все единицы должны указывать натот же корень слова (кусок).Я применил stemming
и lemmatization
из библиотеки nltk
в python, но это не дало желаемого результата.
Применительно к некоторым примерам
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
stemmer= PorterStemmer()
input_str=['pieces', 'piece', 'peice', '1 pc', 'pics', 'single Peice']
for word in input_str:
print(stemmer.stem(word), end=' ')
Вывод, который он дал,
piec piec peic 1 pc pic singl peic
Есть ли способ считать приблизительно одинаковые слова похожими?
Я не знаю, как мне поступить с этой проблемой.Может кто-нибудь предложить что-нибудь?