Разбор файла .ashx в python - PullRequest
       25

Разбор файла .ashx в python

0 голосов
/ 12 июля 2011

Я пытаюсь разобрать URL 'http://www.5min.com/handlers/SitemapHandler.ashx?type=videositemap&page=1' в Python 2.7. Проблема в том, что когда я открываю URL в urlopen, он не отображает источник, он отображает странные символы. Это может быть закодировано.

1 Ответ

1 голос
/ 12 июля 2011

Вы анализируете ответ веб-сервера, а не файл .ashx. Откройте этот URL в вашем браузере. Вот что увидит питон, когда вы откроете его с помощью urlopen.

Из открытия, что это заголовки, которые я получил с ответом:

Cache-Control:private
Content-Encoding:gzip
Content-Length:1100193
Content-Type:application/xml
Date:Mon, 11 Jul 2011 20:21:40 GMT
Server:Microsoft-IIS/7.5
Set-Cookie:NSC_bobmztjt-5njo-opjq*80=ffffffff4304fd3345525d5f4f58455e445a4a423660;expires=Mon, 11-Jul-2011 20:23:42     GMT;path=/;httponly
X-AspNet-Version:4.0.30319
X-Powered-By:ASP.NET
X-Server:fmv-m09 - www

На самом деле, похоже, что ответ будет в формате xml. Таким образом, вам нужно будет проанализировать XML с ElementTree (или что-то еще по вашему выбору). Также обратите внимание, что сервер отправляет ответ, закодированный как gzip (ZipFile), он может или не может сделать это в зависимости от того, позволяет ли это urlopen или нет. Если вы видите бред с Urlopen, попробуйте использовать Python ZipFile для распаковки ответа

...