Question

Для верстки у нас есть наш знаменитый текст "Lorem ipsum", чтобы проверить, как он выглядит.

То, что я ищу, - это набор файлов, содержащих текст, закодированный в нескольких различных кодировках, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.

Пример:

Имеет тестовый файл в кодировке ISO 8859-1 и тестовый файл в кодировке Windows-1252. Windows-1252 должен вызывать различия в области 80 ₁₆ - 9F ₁₆. Другими словами, он должен содержать хотя бы один символ этого региона, чтобы отличить его от ISO 8859-1.

Возможно, лучший набор тестовых файлов - это тот, где тестовый файл для каждой кодировки содержит все свои символы по одному разу. Но, может быть, я не знаю о чем-то другом - нам всем нравится этот материал для кодирования, верно? : -)

Существует ли такой набор тестовых файлов для проблем с кодировкой символов?

Tomasz Nurkiewicz · Answer 1 · 08 февраля 2012

Статья в Википедии о диакритических знаках довольно обширна, к сожалению, вы должны извлечь эти символы вручную.Также может существовать мнемоника для каждого языка.Например, на польском языке мы используем:

Zażółć gęślą jaźń

, который содержит все 9 польских диакритических знаков в одном правильном предложении.Еще одна полезная подсказка для поиска: панграммы : предложения, использующие каждую букву алфавита как минимум один раз :

на испанском языке, " Эль велос мурсиелаго хинду коми фелиз кардилло и киви. Сигофон тосаба эль саксофон детрэс дель паленке де пая."(все 27 букв и диакритических знаков).

на русском языке," 1025 *" (все 33 буквы русского алфавита).

Список панграмм содержит исчерпывающее резюме.Кто-нибудь хочет обернуть это в простой:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

библиотека?

Daniel Teply · Answer 2 · 16 февраля 2012

Как насчет попытки использовать файлы тестового набора ICU ?Я не знаю, являются ли они тем, что вам нужно для вашего теста, но, похоже, у них довольно полные файлы сопоставления из / в UTF, по крайней мере: Ссылка на репозиторий для тестовых файлов ICU

Optimist · Answer 3 · 11 февраля 2012

Я не знаю ни одного полного текстового документа, но если вы можете начать с простого обзора всех наборов символов, на сервере ftp.unicode.org есть некоторые файлы

Вот, например, WINDOWS-1252.Первый столбец является шестнадцатеричным символьным значением, а второй - значением Юникода.

ftp: //ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

Sandeep Nair · Answer 4 · 08 февраля 2012

Ну, я использовал онлайн-инструмент для создания наборов текстовых символов от Lorem Ipsum.Я верю, что это может помочь вам.У меня нет той, которая имеет все разные кодировки на одной странице.

http://generator.lorem -ipsum.info /

Существует ли набор файлов "Lorem ipsums" для тестирования проблем с кодировкой символов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Существует ли набор файлов "Lorem ipsums" для тестирования проблем с кодировкой символов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов