Я хочу маркировать текст с помощью gensim.utils.tokenize(). И я хочу добавить несколько фраз, которые будут распознаваться как одиночные токены, например: 'New York', 'Long Island'.
gensim.utils.tokenize()
'New York', 'Long Island'
Возможно ли это с gensim? Если нет, какие еще библиотеки можно использовать?
Я нашел решение с nltk:
nltk
tokenizer = nltk.tokenize.mwe.MWETokenizer([('hors', "d'oeuvre")], separator=' ') tokenizer.tokenize("An hors d'oeuvre tonight, sir?".split()) ['An', "hors d'oeuvre", 'tonight,', 'sir?']