Я бы хотел точно знать, что делается с текстом, используя указанный шаблон в этом токенизаторе:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)
Где "текст" - серия панд, каждая строка - предложение.
Я специально хочу понять часть r '[a-zA-Z] \ w + \'? \ W '*. Детали (объяснение каждого компонента) будут оценены.