Интересно, есть ли что-то вроде «официальных тестов соответствия» от консорциума Unicode (или связанной с ним организации), которое позволяет тестировать и проверять связанные с текстом алгоритмы и реализации.
UCD содержит несколько файлов данных испытаний .Они предоставляют данные в стандартных форматах, которые можно использовать для тестирования реализаций алгоритмов Unicode.
Вы можете получить последнюю версию базы данных символов Unicode здесь .
Конечно, их много, просто возьмите их изнутри ICU .
Я просто надеюсь, что вы заинтересовались C / C ++ или Java:)