Пространственный токенизатор для обработки последнего периода в предложении - PullRequest
0 голосов
/ 22 марта 2019

Я использую Spacy для токенизации предложений, и я знаю, что текст, который я передаю токенизатору, всегда будет одним предложением.

В моих правилах токенизации я хотел бы, чтобы не были окончательные периоды (". ") должен быть прикреплен к тексту перед ним, поэтому я обновил суффиксные правила, чтобы удалить правила, разбитые на периоды (это правильно отображает сокращения).

Исключением, однако, является то, что самый последний период долженразделить на отдельный токен.

Я вижу, что последняя версия Spacy позволяет вам разделять токены по факту, но я бы предпочел сделать это в самом токенизаторе, чтобы другие компоненты конвейера обрабатывалиправильный токенизация.

1 Ответ

0 голосов
/ 23 марта 2019

Вот одно решение, которое использует некоторую постобработку после токенизатора:

  • Я добавил "."к суффиксам, чтобы период всегда разделялся на собственный токен.
  • Затем я использовал регулярное выражение для поиска неконечных периодов, сгенерировал диапазон с doc.char_span и объединил его с одним токеном с span.merge.

Было бы неплохо сделать это в токенизаторе, если кто-нибудь знает, как это сделать.

...