Каждая кодовая точка Unicode присваивается категории символов .Я ищу список диапазонов, который имеет категорию "Буква".Лучше всего будет CSV в формате "FROM_CODEPOINT; TO_CODEPOINT" со всеми диапазонами, которые определяют буквы.
Похоже, консорциум Unicode публикует базу данных .Файл UnicodeData.txt содержит категорию символов.Я могу получить диапазоны с помощью простой утилиты.
UnicodeData.txt