Вот пример команды токенизации французского текста с французским токенизатором:
java -Xmx10g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-french.properties -file example-french-sentence-one.txt -outputFormat text
Обратите внимание на свойство токенизации:
tokenize.language = fr
Это сообщит токенизаторуиспользовать французский токенизатор.
Это должно обрабатывать случай Aujourd'hui
, но, к сожалению, guillemets жестко запрограммированы для преобразования в "
во французском лексере, и никакие опции не изменяют это поведение.
Если у меня появится возможность, я попытаюсь внести изменения во французский токенизатор, который устанавливает это поведение как необязательное.
Вы можете предоставить уже токенизированный текст в конвейер с опцией tokenize.whitespace
и простопредоставление каждого токена, разделенного по пробелам, если у вас есть другой способ токенизации вашего текста перед его отправкой в Stanford CoreNLP.В противном случае вы можете захотеть обработать ваши данные обучения так, чтобы они соответствовали способу, которым Stanford CoreNLP будет их токенизировать, что может стать еще одним вариантом.