Конечно, вы можете использовать \ x для фильтрации определенных диапазонов кодов ASCII
Например (в JavaScript):
var x = "This is a mix string of üößñ and English. üößñ üößñ are Unicode characters.";
x.replace(/([^\x00-\x80]+\s)+/g, function(match) { return match.slice(0,-1)+", "; } ); // matches characters outside the 0-128 ASCII range
Выход:
Это смесь из английского и английского языков. üößñ üößñ, символы Юникода.
Я уверен, что другой опытный человек с регулярными выражениями может оптимизировать дальше, но это лучшее, что я могу придумать в полусне:)