Я думаю, вы имеете в виду Лекса (генератор лексеров). Yacc - генератор синтаксических анализаторов.
Согласно Каков полный диапазон китайских символов в Unicode? , большинство символов CJH попадают в диапазон 3400-9FFF
.
Согласно http://dinosaur.compilertools.net/lex/index.html
Произвольный персонаж. Чтобы соответствовать почти
любой символ, символ оператора
, это класс всех персонажей
кроме новой строки. Экранирование в восьмеричное
возможно, хотя и непереносимо:
[\40-\176]
соответствует всем печатным символам в
набор символов ASCII от восьмеричного 40
(пусто) в восьмеричное 176 (тильда).
Так что я бы предположил, что вам нужно что-то вроде [\32000-\117777]
.