Все зависит
Сравнивать строки в юникоде сложно:
Реализация строки Unicode
поиск и сравнение в тексте
программное обеспечение для обработки должно принимать во
учитывать наличие эквивалента
кодовые точки. При отсутствии этого
особенность, пользователи ищут
конкретная последовательность кодов будет
быть не в состоянии найти другое визуально
неразличимые глифы, которые имеют
разные, но канонически эквивалентные,
представление кодовой точки.
см .: http://en.wikipedia.org/wiki/Unicode_equivalence
Если вы пытаетесь сравнить 2 строки юникода без учета регистра и хотите, чтобы он работал ВЕЗДЕ , у вас возникла проблема.
Классическим примером является Turkish i , который в верхнем регистре становится İ (обратите внимание на точку)
По умолчанию .Net Framework обычно использует CurrentCulture для функций, связанных со строками, с очень важным исключением .Equals
, которое использует порядковое (побайтное) сравнение.
Это приводит к тому, что различные строковые функции ведут себя по-разному в зависимости от культуры компьютера.
Тем не менее, иногда мы хотим «общего назначения», без учета регистра, сравнения.
Например, вы можете захотеть, чтобы сравнение строк велось одинаково, независимо от того, на каком компьютере установлено приложение.
Для этого у нас есть 3 варианта:
- Установите явную культуру и выполните сравнение без учета регистра, используя правила эквивалентности Юникода.
- Установите для культуры значение Инвариантная культура и выполняйте сравнение без учета регистра, используя правила эквивалентности Юникода.
- Используйте OrdinalIgnoreCase , который будет вводить строку в верхнем регистре с использованием InvariantCulture, а затем выполнять побайтовое сравнение.
Правила эквивалентности Юникода сложны, что означает, что использование метода 1) или 2) обходится дороже, чем OrdinalIgnoreCase
. Тот факт, что OrdinalIgnoreCase
не выполняет какой-либо специальной нормализации Юникода, означает, что некоторые строки, которые одинаково отображаются на экране компьютера, не будут считаться идентичными. Например: "\u0061\u030a"
и "\u00e5"
оба рендеринга. Однако в порядковом сравнении будет считаться другим.
То, что вы выберете, во многом зависит от приложения, которое вы создаете.
- Если бы я писал бизнес-приложение, которое использовалось только турецкими пользователями, я бы обязательно использовал метод 1.
- Если бы мне просто потребовалось простое «ложное» сравнение без учета регистра, например, имя столбца в БД, которое обычно является английским, я бы, вероятно, использовал метод 3.
У Microsoft есть набор рекомендаций с четкими рекомендациями. Тем не менее, очень важно понять понятие эквивалентности Юникода, прежде чем подходить к этим проблемам.
Кроме того, имейте в виду, что OrdinalIgnoreCase - это очень особенный вид зверя, который выбирает и выбирает немного порядкового сравнения с некоторыми смешанными в лексикографических аспектах. Это может сбивать с толку.