Я знаю (из Lucene в действии), что все символы, которые не являются a-zA-Z или вариациями a-zA-Z, которые имеют диакритические знаки , используются в качестве разделителей,в том числе цифры.Таким образом, вы можете разделить Mc'Donald на «Mc» и «Donald», вы можете иметь «Web2.0» с токеном «Web» и так далее.Лучше всего сделать тест и ввести всевозможные символы, а затем опубликовать свои результаты здесь.