Я использую Owasp Anti samy с файлом политики Ebay для предотвращения XSS-атак на мой сайт.
Я также использую поиск Hibernate для индексации своих объектов.
Когда я использую этот код:
String html = "special word: été";
// use the Ebay configuration file
Policy policy = Policy.getInstance(xssPolicyFile.getInputStream());
AntiSamy as = new AntiSamy();
CleanResults cr = as.scan(html, policy);
// result is now : "special word: été"
result = cr.getCleanHTML();
Как вы можете видеть, все символы "é" преобразованы в их html-эквивалент "é
"
Моя страница на UTF-8, поэтому мне не нужно это преобразование. Более того, когда я индексирую этот текст с помощью Hibernate Search, он индексирует слово с помощью html-сущностей, поэтому я не могу найти слово «été» в моем индексе.
Как я могу заставить антисемию не преобразовывать специальные символы в их эквивалент сущности html?
спасибо
PS: проблема открыта: http://code.google.com/p/owaspantisamy/issues/detail?id=99