Ядро Stanford NLP не производит узлы «До» и «После» в токенизации - PullRequest
0 голосов
/ 30 января 2020

Запуск текущей версии Stanford CoreNLP 3.9.1 (обновлено 2018/04/05) в качестве http-сервера.

Использование стандартных свойств .properties, которые входят в комплект поставки для каждого языка:

Во французском языке отсутствуют узлы 'before' и 'after'.

 "tokens": [
        {
          "index": 1,
          "word": "Je",
          "originalText": "Je",
          "characterOffsetBegin": 0,
          "characterOffsetEnd": 2,
          "pos": "PRON"
        },

В то время как все остальные латинские языки, например немецкий, включают узлы.

 {
      "index": 2,
      "word": "durchgecheckt",
      "originalText": "durchgecheckt",
      "characterOffsetBegin": 10,
      "characterOffsetEnd": 23,
      "pos": "VVPP",
      "before": " ",
      "after": " "
    },

Как установить это, чтобы включить их в вывод?

1 Ответ

0 голосов
/ 01 февраля 2020

У вас есть такая же проблема с версией 3.9.2?

Я думаю, что в 3.9.2 вам нужны следующие опции:

tokenize.options = ellipses=ptb3,normalizeParentheses=true,ptb3Dashes=false,splitContractions=true,splitCompounds=true,invertible=true"

Мы пытаемся выпустить версию 4.0. 0 довольно скоро с новым токенизацией для французского языка, который разработан для соответствия современным наборам данных универсальных зависимостей.

...