Question

Я использую en_core_web_sm и пытаюсь адаптировать его к своему корпусу. Я настроил токенизатор, и теперь он генерирует токены по мере необходимости.

Для нашего корпуса важно обрабатывать токен end of line отдельно. Для этого я хотел бы сделать несколько вещей для этого токена:

переопределить нормализованную форму, заменив /n на что-то вроде [EOL] в token.norm_
сохранить часть речи как SPACE для правильного анализа в будущем

Я увидел, что существует файл norm_exceptions.py со всеми исключениями для нормализации. Но я не могу понять, как заставить мой Language объект использовать измененную конфигурацию для нормализации.

Как использовать собственные norm_exceptions?

Dim · Answer 1 · 22 сентября 2018

Отвечая на мой собственный вопрос. В итоге я написал собственный токенайзер, который гарантирует, что все символы / n являются отдельными токенами. То же самое для пробелов.

Поскольку алгоритм векторизации не ясен и мы видим его как черный ящик, в итоге мы написали свою собственную векторизацию. Мы не использовали просторные нативные векторы.

Пользовательская нормализация для простора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пользовательская нормализация для простора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы