Question

Я пытаюсь реализовать пользовательский NER с LSTM.На этапах предварительной обработки требуется ли удалять знаки препинания, такие как двойные кавычки, точки и запятые?Они добавляют какое-либо значение, если сохранены?Поскольку каждый документ представляет собой набор предложений.

Jindřich · Answer 1 · 15 апреля 2019

Знаки пунктуации могут нести много информации о том, где объекты начинаются и заканчиваются. Например, очень маловероятно, что имя объекта будет содержать одинарную двойную кавычку, начинаться с запятой и т. Д. Это все информация, которую RNN очень быстро понимают и помогают производительности модели.

Однако, будьте осторожны, вы правильно маркируете введенный текст. Если вы разделяете текст только на пробелы, все знаки препинания остаются прикрепленными к словам, и это, скорее всего, приведет к ненужным жетонам вне словарного запаса. Удаляя знаки препинания, вы избегаете этой проблемы, но теряете важную информацию. В Python вы можете, например, использовать spacy или sacremoses для токенизации.

Изменяют ли двойные кавычки, точки и запятые веса забвения в LSTM, если они сохраняются?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Изменяют ли двойные кавычки, точки и запятые веса забвения в LSTM, если они сохраняются?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы