Question

Я пишу своего рода клиент Telnet на C #, и часть того, что я должен проанализировать, - это escape-последовательности ANSI / VT100, в частности, только те, которые используются для цвета и форматирования (подробности здесь ).

Один метод, который у меня есть, это один, чтобы найти все коды и удалить их, чтобы я мог при необходимости отобразить текст без какого-либо форматирования:

    
public static string StripStringFormating(string formattedString)
{
    if (rTest.IsMatch(formattedString))
        return rTest.Replace(formattedString, string.Empty);
    else
        return formattedString;
}

Я новичок в регулярных выражениях, и мне предложили использовать это:

static Regex rText = new Regex(@"\e\[[\d;]+m", RegexOptions.Compiled);

Однако это не удалось, если управляющий код был неполным из-за ошибки на сервере. Тогда это было предложено, но мой друг предупредил, что это может быть медленнее (это также соответствует другому условию (z), с которым я могу столкнуться позже):

static Regex rTest = 
              new Regex(@"(\e(\[([\d;]*[mz]?))?)?", RegexOptions.Compiled);

Это не только сработало, но и ускорило и уменьшило влияние на мой рендеринг текста. Может кто-нибудь объяснить новичку регулярного выражения, почему? :)

Oskar · Answer 1 · 10 сентября 2008

Вы действительно хотите дважды запустить регулярное выражение? Не проверив (плохо меня), я бы подумал, что это будет хорошо работать:

public static string StripStringFormating(string formattedString)
{    
    return rTest.Replace(formattedString, string.Empty);
}

Если это произойдет, вы должны увидеть, что он работает ~ в два раза быстрее ...

Jonathan Works · Answer 2 · 07 августа 2008

Причина, по которой # 1 медленнее, заключается в том, что [\ d;] + является жадным квантификатором. Используя +? или же *? собирается сделать ленивый количественный анализ. См. MSDN - квантификаторы для получения дополнительной информации.

Вы можете попробовать:

"(\e\[(\d{1,2};)*?[mz]?)?"

Это может быть быстрее для вас.

lordscarlet · Answer 3 · 17 сентября 2008

Я не уверен, поможет ли это тому, над чем вы работаете, но давно я написал регулярное выражение для разбора графических файлов ANSI.

(?s)(?:\e\[(?:(\d+);?)*([A-Za-z])(.*?))(?=\e\[|\z)

Он вернет каждый код и связанный с ним текст.

Входная строка:

<ESC>[1;32mThis is bright green.<ESC>[0m This is the default color.

Результаты:

[ [1, 32], m, This is bright green.]
[0, m, This is the default color.]

Ryan Fox · Answer 4 · 07 августа 2008

Не делая детального анализа, я предполагаю, что это быстрее из-за вопросительных знаков. Они позволяют регулярному выражению быть «ленивым» и останавливаются, как только их хватит для сравнения, вместо того, чтобы проверять, совпадают ли остальные входные данные.

Хотя я не совсем доволен этим ответом, потому что это в основном относится к вопросительным знакам после * или +. Если бы я был более знаком с информацией, это могло бы иметь для меня больше смысла.

(Кроме того, для форматирования кода вы можете выбрать весь свой код и нажать Ctrl + K , чтобы добавить необходимые четыре пробела.)

Почему это регулярное выражение быстрее?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему это регулярное выражение быстрее?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы