Заголовок довольно понятен: на моем языке большинство букв из трех или менее букв не добавляют значения тексту, за исключением слова «нет», которое может полностью изменить значение предложения.
Я могу отбросить все слова с 3 или менее буквами, выполнив следующее:
shortword = re.compile(r'\W*\b\w{1,3}\b')
df.text=df.text.apply(lambda x: shortword.sub('', x) )
Мне просто нужно ввести условное выражение, чтобы пропустить слово "нет", но я не уверен, какпродолжить.
Есть идеи?