Токенизация нескольких слов в Python - PullRequest
0 голосов
/ 29 января 2019

Я новичок в питоне.У меня есть большой набор данных из твиттера, и я хочу токенизировать его.но я не знаю, как я могу обозначать такие глаголы, как это: «искать, взлетать, расти и т. д.»и это важно для меня.мой код:

>>> from nltk.tokenize import word_tokenize
>>> s = "I'm looking for the answer"
>>> word_tokenize(s)
['I', "'m", 'looking', 'for', 'the', 'answer']

мой набор данных большой, и я не могу использовать этот код страницы: Найти термины из нескольких слов в токенизированном тексте на Python

так, как я могу решить мою проблему?

...