Содержимое, которое может ввести пользователь, удаляется со следующими регулярными выражениями:
Сначала я удаляю html-сущности:
\&\#(\d+|x[0-9a-f]+);?
и затем я удаляю все совпадающие символы:
[\<\>\"\'\`\(\)\:\%\/\\]+
Можете ли вы вспомнить любую строку, которая все еще может выводить вредоносный код?
Обратите внимание, что удаленный контент используется вне каких-либо тегов html и никогда не выглядит как «1011 *».
<a href="myVariableHere">foo</a>