У меня есть требование маркировать слова в предложении на основе конкретного списка слов.
wordlist = ["nlp - nltk", "CIFA R12 - INV"]
Пример ввода: это пример текста для nlp - nltk CIFA R12 - INV
.
при использовании word_tokenize (Exapmle-input), здесь мне нужно nlp - nltk
в качестве одного токена и CIFA R12 - INV
в качестве другого токена. Возможно ли это вместо того, чтобы получать nlp
-
CIFA
в качестве разных токенов?