Question

Как я могу использовать Lex / Yacc для распознавания идентификаторов в китайских иероглифах?

ibz · Answer 1 · 08 июля 2010

Я думаю, вы имеете в виду Лекса (генератор лексеров). Yacc - генератор синтаксических анализаторов.

Согласно Каков полный диапазон китайских символов в Unicode? , большинство символов CJH попадают в диапазон 3400-9FFF.

Согласно http://dinosaur.compilertools.net/lex/index.html

Произвольный персонаж. Чтобы соответствовать почти любой символ, символ оператора , это класс всех персонажей кроме новой строки. Экранирование в восьмеричное возможно, хотя и непереносимо:
                             [\40-\176]
соответствует всем печатным символам в набор символов ASCII от восьмеричного 40 (пусто) в восьмеричное 176 (тильда).

Так что я бы предположил, что вам нужно что-то вроде [\32000-\117777].

Thomas Dickey · Answer 2 · 20 июня 2016

Yacc не заботится о китайских символах, но lex заботится: он отвечает за анализ входных байтов (и символов) для распознавания токенов.Тем не менее, китайские иероглифы, как правило, многобайтовые.Есть программы , такие как lex, которые могут это поддерживать, но они не lex.Это обсуждалось несколько раз.

Дальнейшее чтение:

Добавление кодировки utf-8 в Lex

Стандартный лексический токенизатор, lex (или flex), не принимает многобайтовые символы и, таким образом, является непрактичным для многих современных языков.В этом документе описывается сопоставление регулярных выражений, описывающих многобайтовые символы UTF-8, и регулярных выражений, состоящих из отдельных байтов.

Поддержка Flex (лексера) для Unicode (2012/3/8)

Ответы указывают, как можно обойти ограничение, используя особые случаи шаблонов UTF-8.
Поддержка Unicode во Flex (2009/4/26)

По существу такая же, как предыдущая (но предшествующая и возможный источник этих комментариев)
Как мне лексировать Unicode-символы в C?

В ответе перечислены некоторые альтернативные реализации, которые может сделать, что было задано здесь.

Распознать идентификаторы в китайских иероглифах с помощью Lex / Yacc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Распознать идентификаторы в китайских иероглифах с помощью Lex / Yacc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы