Антисемия преобразование одинарных кавычек в двойные - PullRequest
0 голосов
/ 31 мая 2018

Когда я пытаюсь отсканировать html-тег через antisammy , выдает странный вывод.Он преобразует одинарные кавычки в двойные.

CleanResults cr = as.scan(dirtyContent, policy);
System.out.println(cr.getCleanHTML());

Входная строка - <span style="font-family: 'times new roman', times, serif;">My name is Gourav</span>

Выходная строка - <span style="font-family: &quot;times new roman&quot; , times , serif;">My name is Gourav</span>

Итак, как вы можете видеть, одиночныйкавычки кодируются как &quot;, что при декодировании дает " вместо '.Это вызывает у меня проблемы.

Антисамми версия - 1.5.3

Файл политики - antisamy-everythinggoes.xml

Как я могу решить эту проблему?Любая помощь приветствуется

1 Ответ

0 голосов
/ 07 сентября 2018

попробуйте это простое решение

try
{
    .
    .
    .
    dirtyContent.replaceAll("'", "SOME_COMBINATION_OF_CHARS");
    CleanResults cr = as.scan(dirtyContent, policy);
    dirtyContent.replaceAll("SOME_COMBINATION_OF_CHARS", "'");// here is your sanitised data 
}
catch(Exception ex)
{
    //do something on expn
}
...