Как мне разобрать канал RSS? - PullRequest
0 голосов
/ 01 января 2011

У меня простой вопрос относительно RSS-каналов и XML. У меня достаточно опыта работы с XML, но нет опыта разбора RSS-каналов. Насколько я понимаю, RSS обычно использует XML для передачи данных. Если бы я мог получить хорошо структурированный XML с веб-сайта, который я хочу проанализировать, мне было бы хорошо пойти.

Проблема в том, что когда я нажимаю на ссылку RSS на сайте, хотя URL-адрес заканчивается файлом XML:

...l.com/resources/classifieds/rss_144.xml

Когда я нажимаю на него, веб-сайт содержит контент, который вообще не имеет структурированного XML (это то, что можно просмотреть в окне браузера):

Classifieds : Recreational Vehicles / Motorcycles, Road Bikes Used en-us http://www....l.com/index.php?nid=231&cat=144 ...L Classifieds : Recreational Vehicles / Motorcycles, Road Bikes Used $14,900.00 : 2007 Harley Davidson Fat Boy http://www....l.com/index.php?nid=218&ad=13841365&cat=144 Start the new year off right with a new Fat Boy! I am selling my 2007 Harley Davidson Fat Boy to make room for our new baby. not only do you get a b Fri, 31 Dec 2010 15:05:42 -0700 http://www....l.com/index.php?nid=218&ad=13841365&cat=144 $1,750.00 : 1985 Honda Goldwing GL1200 Aspencade Edition - Air Rid... http://www....l.com/index.php?nid=218&ad=13841353&cat=144 1985 Honda Goldwing GL 1200 Aspencade Edition - Air Ride - Motorcycle with LOW MILES.Check out this 1985 Honda Goldwing GL1200. ONLY 53,426 miles!!! Fri, 31 Dec 2010 14:45:04 -0700 

Но, как я уже упоминал, URL предполагает, что этот файл является XML-файлом. Я хочу иметь возможность анализировать содержимое этого сайта, как мне получить его способом, которым можно манипулировать? Как со структурированными скобками и прочее?

Есть ли какой-то парсер, который мне нужно использовать или что-то в этом роде?

Спасибо !!

1 Ответ

1 голос
/ 01 января 2011

В некоторых браузерах при попытке просмотра RSS-канала отображается только текст.Выберите View Source в вашем браузере, чтобы увидеть фактический XML.

...