Существует ли набор файлов "Lorem ipsums" для тестирования проблем с кодировкой символов? - PullRequest
82 голосов
/ 08 февраля 2012

Для верстки у нас есть наш знаменитый текст "Lorem ipsum", чтобы проверить, как он выглядит.

То, что я ищу, - это набор файлов, содержащих текст, закодированный в нескольких различных кодировках, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.

Пример:

Имеет тестовый файл в кодировке ISO 8859-1 и тестовый файл в кодировке Windows-1252. Windows-1252 должен вызывать различия в области 80 16 - 9F 16 . Другими словами, он должен содержать хотя бы один символ этого региона, чтобы отличить его от ISO 8859-1.

Возможно, лучший набор тестовых файлов - это тот, где тестовый файл для каждой кодировки содержит все свои символы по одному разу. Но, может быть, я не знаю о чем-то другом - нам всем нравится этот материал для кодирования, верно? : -)

Существует ли такой набор тестовых файлов для проблем с кодировкой символов?

Ответы [ 4 ]

41 голосов
/ 08 февраля 2012

Статья в Википедии о диакритических знаках довольно обширна, к сожалению, вы должны извлечь эти символы вручную.Также может существовать мнемоника для каждого языка.Например, на польском языке мы используем:

Zażółć gęślą jaźń

, который содержит все 9 польских диакритических знаков в одном правильном предложении.Еще одна полезная подсказка для поиска: панграммы : предложения, использующие каждую букву алфавита как минимум один раз :

  • на испанском языке, " Эль велос мурсиелаго хинду коми фелиз кардилло и киви. Сигофон тосаба эль саксофон детрэс дель паленке де пая."(все 27 букв и диакритических знаков).

  • на русском языке," 1025 *" (все 33 буквы русского алфавита).

Список панграмм содержит исчерпывающее резюме.Кто-нибудь хочет обернуть это в простой:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

библиотека?

25 голосов
/ 16 февраля 2012

Как насчет попытки использовать файлы тестового набора ICU ?Я не знаю, являются ли они тем, что вам нужно для вашего теста, но, похоже, у них довольно полные файлы сопоставления из / в UTF, по крайней мере: Ссылка на репозиторий для тестовых файлов ICU

8 голосов
/ 11 февраля 2012

Я не знаю ни одного полного текстового документа, но если вы можете начать с простого обзора всех наборов символов, на сервере ftp.unicode.org есть некоторые файлы

Вот, например, WINDOWS-1252.Первый столбец является шестнадцатеричным символьным значением, а второй - значением Юникода.

ftp: //ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

0 голосов
/ 08 февраля 2012

Ну, я использовал онлайн-инструмент для создания наборов текстовых символов от Lorem Ipsum.Я верю, что это может помочь вам.У меня нет той, которая имеет все разные кодировки на одной странице.

http://generator.lorem -ipsum.info /

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...