База данных Unihan содержит эту информацию в файле Unihan_Variants.txt
. Например, пара традиционных / упрощенных символов:
U+673A kTraditionalVariant U+6A5F
U+6A5F kSimplifiedVariant U+673A
В приведенном выше случае U + 6A5F - это 機, традиционная форма 机 (U + 673A).
Другой подход заключается в использовании проекта CC-CEDICT , который публикует словарь китайских иероглифов и соединений (как традиционных, так и упрощенных). Каждая запись выглядит примерно так:
宕機 宕机 [dang4 ji1] / сбой (компьютера) / тайваньский термин для 當 機 | 当 机 [dang4 ji1] /
Первый столбец - это традиционные символы, а второй столбец упрощен.
Чтобы получить все упрощенных символов, прочитайте этот текстовый файл и составьте список всех символов, которые появляются во втором столбце. Обратите внимание, что некоторые символы могут не появляться сами по себе (только в соединениях), поэтому недостаточно взглянуть на односимвольные записи.