Построить подсветку только для одного языка (без контекста, с обычными лексемами, такими как C ++) на самом деле довольно легко, потому что вы в принципе можете заключить все свои лексемы в одно большое регулярное выражение:
$cpplex = '/
(?<preprocessor>#\w+(?:\\\\\n|[^\\\\])*?\n)| # This one is not perfect!
(?: # Integer followed by optional fractional part.
|(?: # Just the fractional part.
(?<keyword>asm|auto|break|case…)| # TODO Complete. Include ciso646!
$matches = preg_match_all($cpplex, $input, $matches, PREG_OFFSET_CAPTURE);
foreach ($matches as $match) {
// TODO: determine which group was matched.
// Don't forget lexemes that are *not* part of the expression:
// i.e. whitespaces and operators. These are between the matches.
echo "<span class=\"$keyword\">$token</span>";