Данные обучения можно оставить с пунктуацией, и WhitespaceTokenizer
( ссылка на документацию ) очистит их. Хотя не все знаки препинания убраны! Вы можете увидеть регулярное выражение, используемое в токенизаторе на Github .
Так что для упомянутой вами пунктуации, такой как запятые, апострофы, вопросительные знаки и т. Д. c. вы можете оставить его там, и токенизатор с этим справится.