Preparsing (X) HTML при чтении из потока - PullRequest
0 голосов
/ 26 июня 2011

Я создаю cgi для встроенной системы, и мне нужна возможность вставлять системную информацию в веб-страницы. Мой план состоит в том, чтобы вставить в исходный код xhtml и позволить cgi делать свое волшебство всякий раз, когда он видит «макрос» FunctionCall. Это не проблема, если я могу хранить полный исходный код xhtml в памяти и выполнять регулярные выражения, но я бы предпочел тратить меньше памяти и обрабатывать поток или чанки во время чтения. Проблема в том, что я должен быть уверен, что не разбиваюсь на середину "", иначе регулярное выражение не сработает. Есть ли хорошая альтернатива регулярному выражению, или у вас есть какие-нибудь мысли, которые могут помочь?

1 Ответ

0 голосов
/ 26 июня 2011

Вы правы в том, что хотите найти альтернативу регулярному выражению, поскольку (X) HTML не является «обычным» языком.

Вам может пригодиться что-то вроде одного из подклассов HTML :: Parser: HTML :: TokeParser, HTML :: TokeParser :: Simple, HTML :: TreeBuilder (:: Xpath) ?, HTML :: TableExtract и т. Д.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...