Question

Я бы хотел точно знать, что делается с текстом, используя указанный шаблон в этом токенизаторе:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)

Где "текст" - серия панд, каждая строка - предложение.

Я специально хочу понять часть r '[a-zA-Z] \ w + \'? \ W '*. Детали (объяснение каждого компонента) будут оценены.

Dankevich · Answer 1 · 29 августа 2018

Это называется регулярным выражением или регулярное выражение . В

[a-zA-Z]\w+\'?\w*

[a-zA-Z] обозначает один символ от a до z или от A до Z
\w+ соответствует любому повторяющемуся слову, где \w сокращение для знаков [a-zA-Z0-9_] и + позволяет повторять его
\'? соответствует символу ' буквально
\w* снова символ слова, повторяемый от одного до бесконечного количества раз

Например, строка Random01'example соответствует этому выражению. Этот сайт также хорошо это объясняет.

Объяснение Pattern для текстового токенизатора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.