У нас есть текущий метод, который очищает символы, которые не являются алфавитными или пробелами, который просто
String clean(String input)
{
return input==null?"":input.replaceAll("[^a-zA-Z ]","");
}
, которое действительно должно быть исправлено для поддержки неанглийских символов (например, ś, ũ, ...). К сожалению, классы Java регулярных выражений (например,
"\ W" - несловесный символ,
"\ p {Alpha}" -US-ASCII только}. Кажется, это не поддерживается. Есть ли способ сделать это с помощью регулярного выражения Java, а не зацикливание вручную, хотя каждый символ, чтобы проверить это?