«Токенизация» разделов текста при обработке текстового файла - PullRequest
0 голосов
/ 14 февраля 2012

Я работаю над хобби-проектом по переносу существующей библиотеки разметки в библиотеку классов C # / .NET.Если вы знакомы с Markdown, это похожая концепция.

Один из первых вопросов, которые у меня возникли, заключается в том, что существует синтаксис для маркировки фрагмента текста, чтобы он не обрабатывался какими-либо другими синтаксическими правилами,и я хотел бы получить несколько советов по этому вопросу.

Один метод, который мне приходит в голову, - это сначала поискать эти разделы, удалить и заменить их каким-то значимым токеном, запустить остальные правила обработки изатем, в качестве последнего шага, замените жетоны на текст, который они представляют.

Это то, что наиболее важно для других?Кроме того, как бы вы сгенерировали токены, чтобы у вас не было возможности случайно создать токен, соответствующий существующему тексту?

Любая помощь / совет приветствуются!

pt

1 Ответ

0 голосов
/ 14 февраля 2012

Почему бы не использовать правильный генератор парсера для создания вашего токенизатора?

Вероятно, вы могли бы что-то стучать вместе с ANTLR через несколько часов.

...