Есть ли способ автоматически узнать, какие символы действительны в данной локали / языке, или я должен просто составить черный список символов, которые, как мне кажется, я не хочу?
Это не так, в общем , возможно.
В конце концов, текст на английском языке включает некоторые акцентированные символы (например, в "fête" и "naïve" - которые в британском английском языке, чтобы быть строго правильными, все еще используют акценты) В некоторых языках некоторые стандартные буквы используются редко (например, y-diaeresis на французском языке).
Затем рассмотрите возможность включения иностранных слов (это часто бывает при использовании технических терминов). Цитаты были бы другим источником.
Если ваши требования достаточно узко определены, вы можете создать определение, но это требует лингвистического опыта на этом языке.