L10N: Доверенные тестовые данные для сортировки по локали - PullRequest
4 голосов
/ 13 января 2011

Я работаю над международным приложением базы данных, которое поддерживает несколько локалей в одном экземпляре.Когда международные пользователи сортируют данные в приложениях, построенных поверх базы данных, база данных теоретически сортирует данные, используя параметры сортировки, соответствующие локали, связанной с данными, которые просматривает пользователь.

Я пытаюсь найти отсортированныесписки слов, которые соответствуют двум критериям:

  1. отсортированный порядок соответствует правилам сопоставления для локали
  2. перечисленные слова позволят мне применить большинство / все конкретные правила сопоставления длялокаль

У меня проблемы с поиском таких проверенных тестовых данных.Имеются ли в настоящее время такие наборы данных для проверки сортировки, и если да, то где они находятся?

"words.en.txt" - это пример текстового файла, содержащего текст на английском языке:

Andrew
Brian
Chris
Zachary

Я планирую загрузить список слов в свою базу данных в случайном порядке и проверить, соответствует ли сортировка списка исходному вводу.

Поскольку я не владею никаким языком, кроме английского, яне знаю, как создавать образцы наборов данных, например, следующий пример на французском языке (назовите его «words.fr.txt»):

cote
côte
coté
côté

Французы предпочитают, чтобы диакритические знаки располагались справа налево.Если вы отсортировали это по порядку кодов, скорее всего, это выглядит так (что является неправильным сопоставлением):

cote
coté
côte
côté

Спасибо за помощь, Крис

1 Ответ

4 голосов
/ 07 мая 2011

Вот что я нашел.

Хранилище данных Unicode Common Locale (CLDR) в значительной степени является авторитетом в сопоставлении для международного текста. Мне удалось найти несколько списков слов, соответствующих правилам, найденным в CLDR, в инструменте ICU Project ICU Demonstration - Locale Explorer . Оказывается, что ICU (International Components for Unicode) использует правила CLDR, чтобы помочь решить общие проблемы интернационализации. Это отличная библиотека; проверить это.

В некоторых случаях было полезно составить несколько бессмысленных терминов путем прямого пересмотра правил CLDR. Поисковые системы, доступные в Соединенных Штатах, не подходили для поиска иностранных терминов с кейсом / диакритическим знаком / другими нюансами, которые меня интересовали для этого тестирования (в ретроспективе, мне интересно, подойдут ли международные поисковые системы лучше для этой задачи).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...