Я ожидаю следующий код;
токенизировать
this is an example 123
в
['this', 'is', 'an', 'example 123']
но он не видит числовую часть слова. Любое предложение?
import re
from nltk.tokenize import RegexpTokenizer
pattern=re.compile(r"[\w\s\d]+")
tokenizer_number=RegexpTokenizer(pattern)
tokenizer_number.tokenize("this is an example 123")