Поезд неанглийских моделей NER Stanford - PullRequest
0 голосов
/ 09 октября 2018

Я вижу несколько сообщений об обучении NER Стэнфорда другим языкам.

например: https://blog.sicara.com/train-ner-model-with-nltk-stanford-tagger-english-french-german-6d90573a9486

Однако в классификаторе Stanford CRF используются некоторые функции, зависящие от языка (например, теги части речи).

Можем ли мы действительно обучать не- Английские модели, использующие один и тот же файл Jar?https://nlp.stanford.edu/software/crf-faq.html

Ответы [ 2 ]

0 голосов
/ 28 марта 2019

Я согласен с предыдущим комментарием, что модель классификации NER не зависит от языка.

Если у вас возникли проблемы с данными обучения, я мог бы предложить вам эту ссылку с огромным количеством помеченных наборов данных для различныхязыки.

Если вы хотите попробовать другую модель, я предлагаю ESTNLTK - библиотеку для эстонского языка, но она может подходить для независимых от языка моделей ( документация ).Также, здесь вы можете найти пример того, как тренировать свою модель с помощью spaCy.

Надеюсь, это поможет.Удачи!

0 голосов
/ 10 октября 2018

Обучение классификатору NER не зависит от языка.Вы должны предоставлять высококачественные данные обучения и создавать значимые функции.Дело в том, что не все функции одинаково полезны для всех языков.Например, использование заглавных букв является хорошим показателем для названной компании на английском языке.Но в немецком языке все существительные пишутся с большой буквы, что делает эти функции менее полезными.

В Stanford NER вы можете решить, какие функции должен использовать классификатор, и, следовательно, вы можете отключить POS-теги (фактически они отключены по умолчанию).Конечно, вы также можете предоставить свои собственные POS-теги на желаемом языке.

Я надеюсь, что смогу уточнить некоторые вещи.

...