Создание модели обучения японскому NER в OpenNLP? - PullRequest
0 голосов
/ 07 мая 2018

Я изучаю возможность создания обучающих данных для японского NER.

Хотите знать, нужно ли мне предварительно токенизировать тренировочные данные или есть способ указать токенизатор во время создания модели?

В приведенном ниже примере у японского языка нет пробелов:

<START:person> Pierre Vinken <END> 61 years old will join the board as a nonexecutive director Nov. 29 .

<START:person> Pierre Vinken <END> は11月29日、非執行取締役として理事に就任する。

Будет ли это работать для обучения модели или мне нужно предоставить обучающие предложения с токенами?

Ответы [ 2 ]

0 голосов
/ 27 сентября 2018

https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html

Я нашел эту ссылку, которая может быть полезна для вашей цели. Для японского языка есть подготовленный NRE, который вы можете скачать

0 голосов
/ 14 июня 2018

Было немного сложно найти документацию по этому вопросу, но OpenNLP ожидает, что данные обучения будут предварительно токенизированы, см. здесь :

Данные могут быть преобразованы в формат обучения OpenNLP. Что является одним предложением в строке. Также доступны некоторые другие форматы. Предложение должно быть размечено и содержать интервалы, которые отмечают сущности.

Это также может быть выведено из приведенного вами примера на английском, поскольку до последнего периода есть пробел. Как правило, данные обучения CRF обычно предварительно токенизируются, поскольку это облегчает оценку по всем программным пакетам.

Когда предложения разбиты на токены, OpenNLP должен нормально работать с японским языком, поскольку на самом деле его не волнует, какие строки.

...