Есть ли хорошая библиотека на python, в которой содержится какой-то словарь общих английских "выбрасывающих слов", таких как "гм", "гм", которые я мог бы использовать для очистки текста для НЛП?
Точно так же мой коллега начал составлять список жаргонных слов. Я хотел бы библиотеку Python, которая находит все это. Его код js ниже делает такие вещи, как превращение «Нет» и «Нау» в «нет»
txt = txt.replace(
/\b(yeah|ya|yep|yup|yes)\b/g, "yes"
).replace(
/\b(no|naw|nope)\b/g, "no"
).replace(
/\b([ah]+|uh-huh|uh+|um+|mhm+|huh+|oh)\b/g, ""
).replace(
/\b(im|i'm|i am)\b/g, "im"
).replace(
/\b(gotta|gonna|got to|going to|wanna|want to)\b/g, "yyxxa"
).replace(
/\b(ok|okay|k)\b/g, "okay"
);