Знаки пунктуации могут нести много информации о том, где объекты начинаются и заканчиваются. Например, очень маловероятно, что имя объекта будет содержать одинарную двойную кавычку, начинаться с запятой и т. Д. Это все информация, которую RNN очень быстро понимают и помогают производительности модели.
Однако, будьте осторожны, вы правильно маркируете введенный текст. Если вы разделяете текст только на пробелы, все знаки препинания остаются прикрепленными к словам, и это, скорее всего, приведет к ненужным жетонам вне словарного запаса. Удаляя знаки препинания, вы избегаете этой проблемы, но теряете важную информацию. В Python вы можете, например, использовать spacy или sacremoses для токенизации.