Стэнфордская NER пунктуация - PullRequest
0 голосов
/ 05 июня 2018

Мы используем Stanford NER для обучения нашего собственного (CRF) классификатора французских газетных текстов.У нас есть проблемы с пунктуацией, в частности Stanford NER, кажется, заменяет некоторые знаки препинания другими.

Вот пример, где ' в «aujourd'hui» заменяется на ` и « и », которые включают Ave-Maria, заменяются на `` и ".

Исходный текст ввода:

" Aujourd'hui ... « Ave Maria » et ..."

Вывод Stanford NER:

word    | tag | begin-offset | end-offset

Aujourd | O   | 31           | 38

`       | O   | 38           | 39

hui     | O   | 39           | 42


``      | O   | 331          | 332

Ave     | O   | 333          | 336

Maria   | O   | 337          | 342

''      | O   | 343          | 344

Мы создали следующие флаги при создании классификатора:

-outputFormatOptions includePunctuationDependencies

-inputEncoding utf-8 

-outputEncoding utf-8

, но ни один из них не сработал.

Буду признателенлюбая помощь.

1 Ответ

0 голосов
/ 06 июня 2018

Вот пример команды токенизации французского текста с французским токенизатором:

java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-french.properties -file example-french-sentence-one.txt -outputFormat text

Обратите внимание на свойство токенизации:

tokenize.language = fr

Это сообщит токенизаторуиспользовать французский токенизатор.

Это должно обрабатывать случай Aujourd'hui, но, к сожалению, guillemets жестко запрограммированы для преобразования в " во французском лексере, и никакие опции не изменяют это поведение.

Если у меня появится возможность, я попытаюсь внести изменения во французский токенизатор, который устанавливает это поведение как необязательное.

Вы можете предоставить уже токенизированный текст в конвейер с опцией tokenize.whitespace и простопредоставление каждого токена, разделенного по пробелам, если у вас есть другой способ токенизации вашего текста перед его отправкой в ​​Stanford CoreNLP.В противном случае вы можете захотеть обработать ваши данные обучения так, чтобы они соответствовали способу, которым Stanford CoreNLP будет их токенизировать, что может стать еще одним вариантом.

...