Я пытаюсь проанализировать некоторые документы в кодировке UTF-8 таким образом, чтобы распознавать символы разных языков. Для моего подхода к работе мне нужно игнорировать неязыковые символы, такие как управляющие символы, математические символы и т. Д. Простая попытка разбить базовый латинский раздел стандарта UTF привел к появлению нескольких областей, причем такие символы, как символ деления, находятся прямо в середина диапазона допустимых латинских символов.
Есть ли где-нибудь список, идентифицирующий эти регионы? Или, еще лучше, Regex, который определяет регионы или что-то в C #, которое может идентифицировать различные символы?