Question

Я работаю над международным приложением базы данных, которое поддерживает несколько локалей в одном экземпляре.Когда международные пользователи сортируют данные в приложениях, построенных поверх базы данных, база данных теоретически сортирует данные, используя параметры сортировки, соответствующие локали, связанной с данными, которые просматривает пользователь.

Я пытаюсь найти отсортированныесписки слов, которые соответствуют двум критериям:

отсортированный порядок соответствует правилам сопоставления для локали
перечисленные слова позволят мне применить большинство / все конкретные правила сопоставления длялокаль

У меня проблемы с поиском таких проверенных тестовых данных.Имеются ли в настоящее время такие наборы данных для проверки сортировки, и если да, то где они находятся?

"words.en.txt" - это пример текстового файла, содержащего текст на английском языке:

Andrew
Brian
Chris
Zachary

Я планирую загрузить список слов в свою базу данных в случайном порядке и проверить, соответствует ли сортировка списка исходному вводу.

Поскольку я не владею никаким языком, кроме английского, яне знаю, как создавать образцы наборов данных, например, следующий пример на французском языке (назовите его «words.fr.txt»):

cote
côte
coté
côté

Французы предпочитают, чтобы диакритические знаки располагались справа налево.Если вы отсортировали это по порядку кодов, скорее всего, это выглядит так (что является неправильным сопоставлением):

cote
coté
côte
côté

Спасибо за помощь, Крис

Chris Betti · Answer 1 · 07 мая 2011

Вот что я нашел.

Хранилище данных Unicode Common Locale (CLDR) в значительной степени является авторитетом в сопоставлении для международного текста. Мне удалось найти несколько списков слов, соответствующих правилам, найденным в CLDR, в инструменте ICU Project ICU Demonstration - Locale Explorer . Оказывается, что ICU (International Components for Unicode) использует правила CLDR, чтобы помочь решить общие проблемы интернационализации. Это отличная библиотека; проверить это.

В некоторых случаях было полезно составить несколько бессмысленных терминов путем прямого пересмотра правил CLDR. Поисковые системы, доступные в Соединенных Штатах, не подходили для поиска иностранных терминов с кейсом / диакритическим знаком / другими нюансами, которые меня интересовали для этого тестирования (в ретроспективе, мне интересно, подойдут ли международные поисковые системы лучше для этой задачи).

L10N: Доверенные тестовые данные для сортировки по локали

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

L10N: Доверенные тестовые данные для сортировки по локали

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов