Одна из самых сложных проблем в интернационализированном поиске - это прописные и строчные буквы. Это понятие падежа ограничено языками, написанными на латинском, греческом и кириллическом наборах символов. Носители английского языка, естественно, ожидают, что поиск будет нечувствительным к регистру, хотя бы потому, что они ленивы: если Надя Джонс захочет посмотреть в Google, она, вероятно, просто наберет Надю Джонс и будет ожидать, что система позаботится об этом.
Так что в поисковых системах довольно часто «нормализуют» слова, переводя их в нижний или верхний регистр, как для индексации, так и для запросов.
Проблема в том, что сопоставление между делами не всегда так просто, как на английском языке. Например, немецкий символ нижнего регистра «ß» становится «SS» в верхнем регистре, а старая добрая заглавная буква «I» в нижнем регистре на турецком языке становится точкой «ı» (да, у них есть «i», его версия в верхнем регистре - «İ»). Я читал (но не проверял из первых рук), что во Франции и в Квебеке разные правила для акцентированных символов, таких как «é», различны. Одним из результатов всего этого является то, что такие программы, как java.String.toLowerCase (), работают удивительно медленно, пытаясь обойти все эти угловые случаи.