Мой текст уже был токенизирован, отдельные токены разделены пробелами.
С помощью API stanfordnlp можно указать tokenize_pretokenized в конфигурации: https://stanfordnlp.github.io/stanfordnlp/tokenize.html
tokenize_pretokenized
СCoreNLP возможно что-то подобное, установив tokenize.whitespace = true: Как NER и POS пометить предварительно токенизированный текст с помощью Stanford CoreNLP?
tokenize.whitespace = true
Я хотел бы использовать старый CoreNLP через stanfordnlpпакет python (это возможно и описано здесь ) и включите этот параметр. Но я не вижу, как я могу указать, что мой текст был предварительно токенизирован.