странный HTML-файл, возвращаемый веб-сервером - PullRequest
0 голосов
/ 26 июня 2011

Во время работы над веб-сканером я столкнулся с этим странным явлением;ниже приведен фрагмент содержимого страницы, возвращаемого веб-сервером для http://nexgen.ae:

< ! D O C T Y P E   H T M L   P U B L I C   " - / / W 3 C / / D T D   H T M L   4 . 0   T r a n s i t i o n a l / / E N " > 

 < H T M L > < H E A D > < T I T L E > N e x G e n   T e c h n o l o g i e s   L L C |   F i n g e r p r i n t   T i m e   A t t e n d a n c e   M a n a g e m e n t   S y s t e m |   A c c e s s   C o n t r o l   M a n a g e m e n t   S y s t e m |   F a c e   R e c o g n i t i o n |   D o o r   A c c e s s   C o n t r o l |   E m p l o y e e s   A t t e n d a n c e |   S o l u t i o n   P r o v i d e r |   N e t w o r k   S t r u c t u e d   C a b l i n g | D u b a i |   U A E ) < / T I T L E > 

Как видите, веб-сервер, похоже, вставил пробел после каждого другого символав оригинальном источнике HTML.Я проверил источник HTML с помощью «Page Source» в Firefox, и там не было лишних пробелов.Я также проверил другие веб-страницы с того же веб-сайта и получаю правильный HTML-файл для этих страниц.До сих пор, похоже, проблема возникает только со страницей этого веб-сайта по умолчанию при доступе через веб-сканер.

Я заметил, что html-файл содержит «скрипт отслеживания оптимизатора Google» в самом конце.Интересно, имеет ли проблема какое-то отношение к этому ...

Или это может быть просто способ менеджера веб-сайта не допустить сканеров?Если это так, файл robots.txt подойдет!

1 Ответ

1 голос
/ 26 июня 2011

Вероятно, это не пробелы, это нулевые байты.Страница кодируется в формате UTF-16 (кратно 2 байтам на символ, минимум 2), и поскольку веб-сайт неправильно указал свою кодировку в заголовках HTTP, вы пытаетесь прочитать его как ASCII (1 байт на символ) иливозможно UTF-8 (1 байт или более на символ).

Чтобы увидеть, что я имею в виду, откройте его в своем браузере и измените кодировку (где-то в меню браузера, возможно, придется щелкнуть правой кнопкой мыши на странице) и выберите опцию UTF-16LE.

...