Текстовый поиск Python не соответствует значениям - PullRequest
0 голосов
/ 25 сентября 2019

Здравствуйте, у меня есть список слов для поиска в пандах.Когда я выполняю свой код, он соответствует только нескольким из них, например, 4 из 7, но есть больше о, скажем, 1000. Вот что я сделал.

stopwords = nltk.corpus.stopwords.words('french')
ps = nltk.PorterStemmer()

def clean_text(text):
    text = "".join([word.lower() for word in text if word not in string.punctuation])
    tokens = re.split('\W+', text)
    text = " ".join([word for word in tokens if word not in stopwords])
    return text

ptf_dates['cleaned_nomComplet'] = ptf_dates['nomComplet'].apply(lambda x: clean_text(x))

# CodeNaf related to sport.
code = ["sport","circuit", "club ","federation", "team", "sportifs"]

ptf_dates["topNomClient"] = ptf_dates["cleaned_nomComplet"].str.lower().apply(lambda x: True if x in code
                                                                             else False)
ptf_dates.groupby("topClient").size()
ptf_dates.to_csv("../05Outputs/01data/csv_top_textClean.csv", encoding='utf-8-sig')

Когда я ищу ключевое слово "sport" в excel по столбцу "cleaned_nomComplet "вернуть 175. Что не так с моим кодом, почему я не могу сопоставить" спорт "?Спасибо

...