Я использую en_core_web_sm
и пытаюсь адаптировать его к своему корпусу.
Я настроил токенизатор, и теперь он генерирует токены по мере необходимости.
Для нашего корпуса важно обрабатывать токен end of line
отдельно. Для этого я хотел бы сделать несколько вещей для этого токена:
- переопределить нормализованную форму, заменив
/n
на что-то вроде [EOL]
в token.norm_
- сохранить часть речи как
SPACE
для правильного анализа в будущем
Я увидел, что существует файл norm_exceptions.py
со всеми исключениями для нормализации. Но я не могу понять, как заставить мой Language
объект использовать измененную конфигурацию для нормализации.
Как использовать собственные norm_exceptions?