Следует ли удалять пунктуацию из данных обучения Rasa NLU? - PullRequest
0 голосов
/ 16 января 2020

В данных обучения NLU следует ли оставлять знаки препинания (запятые, апострофы, вопросительные знаки, заглавные буквы и т. Д. c.) Для высказываний о намерениях как есть, удалять или это имеет значение?

1 Ответ

0 голосов
/ 11 февраля 2020

Данные обучения можно оставить с пунктуацией, и WhitespaceTokenizer ( ссылка на документацию ) очистит их. Хотя не все знаки препинания убраны! Вы можете увидеть регулярное выражение, используемое в токенизаторе на Github .

Так что для упомянутой вами пунктуации, такой как запятые, апострофы, вопросительные знаки и т. Д. c. вы можете оставить его там, и токенизатор с этим справится.

...