Когда я использую:
nltk.word_tokenize("don't")
, я получаю
["do", "n't"]
Я хочу:
["dont"]
Вы можете использовать TweetTokenizer
from nltk.tokenize import TweetTokenizer tweet_tokenizer = TweetTokenizer() sen = "don't won't can't" res = [x.replace("'", '') for x in tweet_tokenizer.tokenize(sen)] print(res)
Вывод:
['dont', 'wont', 'cant']