Для верстки у нас есть наш знаменитый текст "Lorem ipsum", чтобы проверить, как он выглядит.
То, что я ищу, - это набор файлов, содержащих текст, закодированный в нескольких различных кодировках, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.
Пример:
Имеет тестовый файл в кодировке ISO 8859-1
и тестовый файл в кодировке Windows-1252
. Windows-1252 должен вызывать различия в области 80 16 - 9F 16 . Другими словами, он должен содержать хотя бы один символ этого региона, чтобы отличить его от ISO 8859-1.
Возможно, лучший набор тестовых файлов - это тот, где тестовый файл для каждой кодировки содержит все свои символы по одному разу. Но, может быть, я не знаю о чем-то другом - нам всем нравится этот материал для кодирования, верно? : -)
Существует ли такой набор тестовых файлов для проблем с кодировкой символов?