Объяснение Pattern для текстового токенизатора - PullRequest
0 голосов
/ 29 августа 2018

Я бы хотел точно знать, что делается с текстом, используя указанный шаблон в этом токенизаторе:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)

Где "текст" - серия панд, каждая строка - предложение.

Я специально хочу понять часть r '[a-zA-Z] \ w + \'? \ W '*. Детали (объяснение каждого компонента) будут оценены.

1 Ответ

0 голосов
/ 29 августа 2018

Это называется регулярным выражением или регулярное выражение . В

[a-zA-Z]\w+\'?\w*

  • [a-zA-Z] обозначает один символ от a до z или от A до Z
  • \w+ соответствует любому повторяющемуся слову, где \w сокращение для знаков [a-zA-Z0-9_] и + позволяет повторять его
  • \'? соответствует символу ' буквально
  • \w* снова символ слова, повторяемый от одного до бесконечного количества раз

Например, строка Random01'example соответствует этому выражению. Этот сайт также хорошо это объясняет.

...