Как отметили другие, было бы очень трудно поддерживать актуальную базу данных всех писем на всех существующих языках.Но в большинстве случаев вам это на самом деле не нужно, и ваш код может начать с поддержки нескольких выбранных языков и добавления других по мере необходимости.
Следующий простой код поддерживает сопоставление для Чешский , Немецкий и Польский язык.Наборы символов можно легко получить из Википедии.
import re
LANGS = [
'ÁáČčĎďÉéĚěÍíŇňÓóŘřŠšŤťÚúŮůÝýŽž', # Czech
'ÄäÖöÜüẞß', # German
'ĄąĆćĘꣳŃńÓ󌜏źŻż', # Polish
]
pattern = '[A-Za-z{langs}]'.format(langs=''.join(LANGS))
pattern = re.compile(pattern)
result = pattern.findall('Žluťoučký kůň')
print(result)
# ['Ž', 'l', 'u', 'ť', 'o', 'u', 'č', 'k', 'ý', 'k', 'ů', 'ň']