Модульное тестирование парсера / очистителя HTML? - PullRequest
4 голосов
/ 14 июля 2010

Я пытаюсь выбрать между парой различных анализаторов HTML для проекта, над которым я работаю, часть которого принимает ввод HTML от клиента.

Я создал простой автоматический тест для каждого из них, чтобы проверить, соответствуют ли они моим потребностям. У меня есть большое количество реальных HTML-фрагментов для тестирования, но их недостаточно для тестирования на безопасность, поскольку они (вероятно) не содержат вредоносного кода.
Я не против просмотреть результаты вручную.

У меня вопрос: есть ли свободно доступная база данных или список фрагментов HTML, содержащих искаженный HTML и сценарии, предназначенные для тестирования на XSS?

Ответы [ 3 ]

2 голосов
/ 18 июля 2010

Шпаргалка ha.ckers XSS довольно обширна, и я стал катализатором для создания в jsoup sanitiser на основе белого списка.

0 голосов
/ 09 февраля 2012

Я построил html-sanitizer-testbed именно для этой цели. Он состоит из двух компонентов:

  1. Набор тестов, предназначенных для проверки безопасности дезинфицирующего средства HTML. Я собрал все хитрые дела, которые мне удалось найти. Он включает в себя все на листе XSS ha.ckers.org, а также множество других тестовых примеров, которые я собрал за эти годы. За прошедшие годы я проанализировал десятки HTML-дезинфицирующих средств (большинство из них были уязвимы) и добавил тестовый пример для каждой обнаруженной мной уязвимости, так что это довольно хорошая коллекция.

  2. Кроме того, он предоставляет некоторые функции автоматизации тестирования, так что вам не нужно просматривать результаты вручную: вы можете запустить браузер и проверить, не выполнял ли браузер какой-либо Javascript в выходных данных дезинфицирующее средство (в этом случае дезинфицирующее средство сломано). Эта часть не является надежной на 100% и не дает никаких гарантий, поэтому для максимальной эффективности вы можете просмотреть результаты вручную. Тем не менее, до сих пор это работало довольно хорошо для меня.

Я приветствую отзывы и комментарии.

0 голосов
/ 14 июля 2010

Кажется, что домашняя страница Google искажена, может быть, вы можете использовать это? http://validator.w3.org/check?uri=www.google.com&charset=%28detect+automatically%29&doctype=Inline&group=0

http://www.codinghorror.com/blog/2006/11/its-a-malformed-world.html

...