Question

Я пытаюсь токенизировать слова из любого текста, например:

Ça me plaît.

Должен быть маркирован как "ça, me, plaît".Для этого я хочу очистить строку от всех специальных символов, а затем разбить ее на пробел.С этим кодом:

text = text.toLowerCase().replaceAll(/^\w/, ' ')
def tokens = text.split(" ")

Я получаю

a me pla t

Что далеко не полезно.Какое регулярное выражение мне нужно здесь?

Спасибо!Mulone

tim_yates · Answer 1 · 23 марта 2011

Мне кажется, это работает (по крайней мере, в этой ситуации):

'Ça me plaît.'.toLowerCase().replaceAll( /[^\p{javaLowerCase}]/, ' ').split( ' ' )

Lundberg · Answer 2 · 23 марта 2011

Вы можете использовать \ S (заглавная S) вместо \ w.\ S соответствует всем небелым символам, в то время как \ s (не заглавным) соответствует всем белым символам.

Следовательно, у вас будет

text = text.toLowerCase().replaceAll(/^\S/, ' ')
def tokens = text.split(" ")

Groovy Regex для сопоставления слов (даже с ударными буквами)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Groovy Regex для сопоставления слов (даже с ударными буквами)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы