Стратегия удаления английских слов "crap" из строки NLP, таких как "um", "uh" - PullRequest
1 голос
/ 09 ноября 2019

Есть ли хорошая библиотека на python, в которой содержится какой-то словарь общих английских "выбрасывающих слов", таких как "гм", "гм", которые я мог бы использовать для очистки текста для НЛП?

Точно так же мой коллега начал составлять список жаргонных слов. Я хотел бы библиотеку Python, которая находит все это. Его код js ниже делает такие вещи, как превращение «Нет» и «Нау» в «нет»

  txt = txt.replace(
        /\b(yeah|ya|yep|yup|yes)\b/g, "yes"
    ).replace(
        /\b(no|naw|nope)\b/g, "no"
    ).replace(
        /\b([ah]+|uh-huh|uh+|um+|mhm+|huh+|oh)\b/g, ""
    ).replace(
        /\b(im|i'm|i am)\b/g, "im"
    ).replace(
        /\b(gotta|gonna|got to|going to|wanna|want to)\b/g, "yyxxa"
    ).replace(
        /\b(ok|okay|k)\b/g, "okay"
    );

1 Ответ

0 голосов
/ 13 ноября 2019

Часть ответа здесь: https://github.com/words/fillers/blob/master/index.json

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...