Здравствуйте, у меня есть список слов для поиска в пандах.Когда я выполняю свой код, он соответствует только нескольким из них, например, 4 из 7, но есть больше о, скажем, 1000. Вот что я сделал.
stopwords = nltk.corpus.stopwords.words('french')
ps = nltk.PorterStemmer()
def clean_text(text):
text = "".join([word.lower() for word in text if word not in string.punctuation])
tokens = re.split('\W+', text)
text = " ".join([word for word in tokens if word not in stopwords])
return text
ptf_dates['cleaned_nomComplet'] = ptf_dates['nomComplet'].apply(lambda x: clean_text(x))
# CodeNaf related to sport.
code = ["sport","circuit", "club ","federation", "team", "sportifs"]
ptf_dates["topNomClient"] = ptf_dates["cleaned_nomComplet"].str.lower().apply(lambda x: True if x in code
else False)
ptf_dates.groupby("topClient").size()
ptf_dates.to_csv("../05Outputs/01data/csv_top_textClean.csv", encoding='utf-8-sig')
Когда я ищу ключевое слово "sport" в excel по столбцу "cleaned_nomComplet "вернуть 175. Что не так с моим кодом, почему я не могу сопоставить" спорт "?Спасибо