Пользовательская нормализация для простора - PullRequest
0 голосов
/ 06 сентября 2018

Я использую en_core_web_sm и пытаюсь адаптировать его к своему корпусу. Я настроил токенизатор, и теперь он генерирует токены по мере необходимости.

Для нашего корпуса важно обрабатывать токен end of line отдельно. Для этого я хотел бы сделать несколько вещей для этого токена:

  • переопределить нормализованную форму, заменив /n на что-то вроде [EOL] в token.norm_
  • сохранить часть речи как SPACE для правильного анализа в будущем

Я увидел, что существует файл norm_exceptions.py со всеми исключениями для нормализации. Но я не могу понять, как заставить мой Language объект использовать измененную конфигурацию для нормализации.

Как использовать собственные norm_exceptions?

1 Ответ

0 голосов
/ 22 сентября 2018

Отвечая на мой собственный вопрос. В итоге я написал собственный токенайзер, который гарантирует, что все символы / n являются отдельными токенами. То же самое для пробелов.

Поскольку алгоритм векторизации не ясен и мы видим его как черный ящик, в итоге мы написали свою собственную векторизацию. Мы не использовали просторные нативные векторы.

...