использовать интерфейс Python для stanfordnlp с предварительно токенизированным текстом и corenlp - PullRequest
0 голосов
/ 02 октября 2019

Мой текст уже был токенизирован, отдельные токены разделены пробелами.

С помощью API stanfordnlp можно указать tokenize_pretokenized в конфигурации: https://stanfordnlp.github.io/stanfordnlp/tokenize.html

СCoreNLP возможно что-то подобное, установив tokenize.whitespace = true: Как NER и POS пометить предварительно токенизированный текст с помощью Stanford CoreNLP?

Я хотел бы использовать старый CoreNLP через stanfordnlpпакет python (это возможно и описано здесь ) и включите этот параметр. Но я не вижу, как я могу указать, что мой текст был предварительно токенизирован.

...