Я пытаюсь токенизировать слова из любого текста, например:
Ça me plaît.
Должен быть маркирован как "ça, me, plaît".Для этого я хочу очистить строку от всех специальных символов, а затем разбить ее на пробел.С этим кодом:
text = text.toLowerCase().replaceAll(/^\w/, ' ')
def tokens = text.split(" ")
Я получаю
a me pla t
Что далеко не полезно.Какое регулярное выражение мне нужно здесь?
Спасибо!Mulone