HTML-страница содержит только текст и некоторую разметку тега.
Изображения, сценарии и таблицы стилей (обычно) являются внешними файлами, на которые ссылается HTML-разметка. Это означает, что если вы запросите страницу, вы уже получите только текст (без изображений и прочего).
Поскольку вы пишете сканер, убедитесь, что он не следует URL-адресам из изображений, сценариев или таблиц стилей.
Я не уверен на 100%, но я верю, что GET /foobar.png
вернет изображение, даже если вы отправите Accept: text/html
. По этой причине я считаю, что вам следует просто отфильтровать, какие URL вы сканируете.
Кроме того, вы можете попытаться прочитать заголовки ответа в сканере и закрыть соединение, прежде чем читать тело, если Content-Type
не text/html
. Это может быть полезно для нежелательных больших файлов.