Является ли язык Spacy независимым при обучении NER? - PullRequest
0 голосов
/ 27 апреля 2018

Если я тренирую модель NER с нуля, имеет ли значение язык? В API я устанавливаю язык, но я также даю API диапазоны именованных объектов. Формат командной строки идет еще дальше, и я даю метки NER для каждого токена для каждого предложения. Например, могу ли я токенизировать японский с использованием ICU, маркировать токены, а затем передать их в Spacy?

Ответы [ 2 ]

0 голосов
/ 05 мая 2018

Начиная с Spacy 2.0, установка языка на xx будет обучать независимую от языка модель, а конвейер можно настроить . Хотя токенизатор, тегер и синтаксический анализатор зависят от языка, тегер и анализатор могут быть отключены. Токенайзер можно пропустить, если для обеспечения предварительно токенизированного ввода используется GoldParse класс . Это довольно просто с помощью инструмента командной строки. spacy train имеет опции для отключения тегера и анализатора, а входной формат предварительно токенизирован. spacy convert может использоваться для преобразования стандартных форматов файлов NER в формат Spacy.

0 голосов
/ 29 апреля 2018

Spacy использует конвейер , состоящий из токенизатора, тегера, анализатора и распознавателя сущностей. это означает, что каждый выход уровня просто подается на следующий уровень в качестве входных данных, поэтому, например, если я использую токенайзер en для тегера fr, не произойдет никаких ошибок, НО исключения токенов и норм в языке en повлияют на мой fr Док, так что, возможно, точность снизится.

...