Question

У меня есть требование маркировать слова в предложении на основе конкретного списка слов.

wordlist = ["nlp - nltk", "CIFA R12 - INV"]

Пример ввода: это пример текста для nlp - nltk CIFA R12 - INV.

при использовании word_tokenize (Exapmle-input), здесь мне нужно nlp - nltk в качестве одного токена и CIFA R12 - INV в качестве другого токена. Возможно ли это вместо того, чтобы получать nlp - CIFA в качестве разных токенов?

Vignesh Muthu.S · Answer 1 · 07 мая 2018

Для тех, кто придет сюда в будущем: -
После некоторого прочтения я обнаружил, что модуль nltk.tokenize.mwe - это опция для выполнения моих вышеупомянутых требований.

Ссылка: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe

Токенизируйте слова на основе списка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Токенизируйте слова на основе списка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы