Я написал функцию проверки строки UTF-8.
Функция принимает буфер байтов и его длину в символах UTF-8 и проверяет, что буфер состоит именно из заданного числа действительных UTF-8.символов.
Если буфер слишком короткий или большой или содержит недопустимые символы UTF8, проверка не пройдена.
Теперь я хочу написать автоматические тесты для моего валидатора.
Есть ли набор данных, который я могу использовать повторно?
Я нашел этот файл: http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt, но похоже, что он не подходит моим целям - он больше подходит для визуализациитесты, как я понимаю.
Есть какие-нибудь подсказки?