Question

Если я тренирую модель NER с нуля, имеет ли значение язык? В API я устанавливаю язык, но я также даю API диапазоны именованных объектов. Формат командной строки идет еще дальше, и я даю метки NER для каждого токена для каждого предложения. Например, могу ли я токенизировать японский с использованием ICU, маркировать токены, а затем передать их в Spacy?

rpedela · Answer 1 · 05 мая 2018

Начиная с Spacy 2.0, установка языка на xx будет обучать независимую от языка модель, а конвейер можно настроить . Хотя токенизатор, тегер и синтаксический анализатор зависят от языка, тегер и анализатор могут быть отключены. Токенайзер можно пропустить, если для обеспечения предварительно токенизированного ввода используется GoldParse класс . Это довольно просто с помощью инструмента командной строки. spacy train имеет опции для отключения тегера и анализатора, а входной формат предварительно токенизирован. spacy convert может использоваться для преобразования стандартных форматов файлов NER в формат Spacy.

ᴀʀᴍᴀɴ · Answer 2 · 29 апреля 2018

Spacy использует конвейер , состоящий из токенизатора, тегера, анализатора и распознавателя сущностей. это означает, что каждый выход уровня просто подается на следующий уровень в качестве входных данных, поэтому, например, если я использую токенайзер en для тегера fr, не произойдет никаких ошибок, НО исключения токенов и норм в языке en повлияют на мой fr Док, так что, возможно, точность снизится.

Является ли язык Spacy независимым при обучении NER?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Является ли язык Spacy независимым при обучении NER?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы