Question

Мы используем Stanford NER для обучения нашего собственного (CRF) классификатора французских газетных текстов.У нас есть проблемы с пунктуацией, в частности Stanford NER, кажется, заменяет некоторые знаки препинания другими.

Вот пример, где ' в «aujourd'hui» заменяется на ` и « и », которые включают Ave-Maria, заменяются на `` и ".

Исходный текст ввода:

" Aujourd'hui ... « Ave Maria » et ..."

Вывод Stanford NER:

word    | tag | begin-offset | end-offset

Aujourd | O   | 31           | 38

`       | O   | 38           | 39

hui     | O   | 39           | 42


``      | O   | 331          | 332

Ave     | O   | 333          | 336

Maria   | O   | 337          | 342

''      | O   | 343          | 344

Мы создали следующие флаги при создании классификатора:

-outputFormatOptions includePunctuationDependencies

-inputEncoding utf-8 

-outputEncoding utf-8

, но ни один из них не сработал.

Буду признателенлюбая помощь.

StanfordNLPHelp · Answer 1 · 06 июня 2018

Вот пример команды токенизации французского текста с французским токенизатором:

java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-french.properties -file example-french-sentence-one.txt -outputFormat text

Обратите внимание на свойство токенизации:

tokenize.language = fr

Это сообщит токенизаторуиспользовать французский токенизатор.

Это должно обрабатывать случай Aujourd'hui, но, к сожалению, guillemets жестко запрограммированы для преобразования в " во французском лексере, и никакие опции не изменяют это поведение.

Если у меня появится возможность, я попытаюсь внести изменения во французский токенизатор, который устанавливает это поведение как необязательное.

Вы можете предоставить уже токенизированный текст в конвейер с опцией tokenize.whitespace и простопредоставление каждого токена, разделенного по пробелам, если у вас есть другой способ токенизации вашего текста перед его отправкой в Stanford CoreNLP.В противном случае вы можете захотеть обработать ваши данные обучения так, чтобы они соответствовали способу, которым Stanford CoreNLP будет их токенизировать, что может стать еще одним вариантом.

Стэнфордская NER пунктуация

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Стэнфордская NER пунктуация

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы