Я пытаюсь найти регулярное выражение для оператора Tokenizer
в Rapidminer.
Теперь я пытаюсь разделить текст на части, скажем, двух слов.
Например, That was a good movie.
должно привести к That was
, was a
, a good
, good movie
.
Особенность регулярного выражения в токенизаторе заключается в том, что он играет роль разделителя, поэтому вы соответствуете точке разделения, а не тому, что пытаетесь сохранить.
Таким образом, первая мысль состоит в том, чтобы использовать \s
для разбиения на пробелы, но это приведет к тому, что каждое слово будет получено отдельно.
Итак, мой вопрос: как заставить выражение как-то пропустить один из двух пробелов?