Question

Я хочу маркировать текст с помощью gensim.utils.tokenize(). И я хочу добавить несколько фраз, которые будут распознаваться как одиночные токены, например: 'New York', 'Long Island'.

Возможно ли это с gensim? Если нет, какие еще библиотеки можно использовать?

DmytroSytro · Answer 1 · 24 мая 2019

Я нашел решение с nltk:

tokenizer = nltk.tokenize.mwe.MWETokenizer([('hors', "d'oeuvre")], separator=' ')
tokenizer.tokenize("An hors d'oeuvre tonight, sir?".split())

['An', "hors d'oeuvre", 'tonight,', 'sir?']

Как указать дополнительные токены для токенизатора?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как указать дополнительные токены для токенизатора?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы