Токенизируйте слова на основе списка - PullRequest
0 голосов
/ 30 апреля 2018

У меня есть требование маркировать слова в предложении на основе конкретного списка слов.

wordlist = ["nlp - nltk", "CIFA R12 - INV"]

Пример ввода: это пример текста для nlp - nltk CIFA R12 - INV.

при использовании word_tokenize (Exapmle-input), здесь мне нужно nlp - nltk в качестве одного токена и CIFA R12 - INV в качестве другого токена. Возможно ли это вместо того, чтобы получать nlp - CIFA в качестве разных токенов?

1 Ответ

0 голосов
/ 07 мая 2018

Для тех, кто придет сюда в будущем: -
После некоторого прочтения я обнаружил, что модуль nltk.tokenize.mwe - это опция для выполнения моих вышеупомянутых требований.

Ссылка: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe

...