Question

Когда я использую:

nltk.word_tokenize("don't")

, я получаю

["do", "n't"]

Я хочу:

["dont"]

Raju Komati · Answer 1 · 11 июля 2020

Вы можете использовать TweetTokenizer

from nltk.tokenize import TweetTokenizer

tweet_tokenizer = TweetTokenizer()
sen = "don't won't can't"

res = [x.replace("'", '') for x in tweet_tokenizer.tokenize(sen)]
print(res)

Вывод:

['dont', 'wont', 'cant']

Tokenize не использовать NLTK Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Tokenize не использовать NLTK Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов