Изменяют ли двойные кавычки, точки и запятые веса забвения в LSTM, если они сохраняются? - PullRequest
0 голосов
/ 15 апреля 2019

Я пытаюсь реализовать пользовательский NER с LSTM.На этапах предварительной обработки требуется ли удалять знаки препинания, такие как двойные кавычки, точки и запятые?Они добавляют какое-либо значение, если сохранены?Поскольку каждый документ представляет собой набор предложений.

1 Ответ

0 голосов
/ 15 апреля 2019

Знаки пунктуации могут нести много информации о том, где объекты начинаются и заканчиваются. Например, очень маловероятно, что имя объекта будет содержать одинарную двойную кавычку, начинаться с запятой и т. Д. Это все информация, которую RNN очень быстро понимают и помогают производительности модели.

Однако, будьте осторожны, вы правильно маркируете введенный текст. Если вы разделяете текст только на пробелы, все знаки препинания остаются прикрепленными к словам, и это, скорее всего, приведет к ненужным жетонам вне словарного запаса. Удаляя знаки препинания, вы избегаете этой проблемы, но теряете важную информацию. В Python вы можете, например, использовать spacy или sacremoses для токенизации.

...