Различные результаты для одной и той же ленты RSS, получаемой от разных пользовательских агентов - PullRequest
0 голосов
/ 10 января 2011

Если я добавлю URL фида в Google Reader или в агрегатор фидов на рабочем столе, я получу хорошие результаты. URL-адрес:

http://estaticos03.marca.com/rss/futbol_1adivision.xml

Но когда я получаю один и тот же URL-адрес из сценария (сценарий python, используя библиотеку feedparser), я получаю немного другое содержимое для тех же результатов (например, заголовок для каждой записи различен и все в верхнем регистре).

Я полагаю, что на стороне сервера что-то делается, чтобы попытаться отговорить таких людей, как я, анализировать контент для моих собственных проектов (фид из популярной футбольной газеты), но я не уверен в этом. Я пытался передать некоторые пользовательские агенты (например, Google Reader), но все равно не повезло, так что, может быть, они также проверяют IP? Я действительно в замешательстве.

Есть идеи, почему это происходит со мной?

Спасибо!

Ответы [ 3 ]

0 голосов
/ 10 января 2011

Вы изменили пользовательский агент вашего скрипта? Попробуйте подражать Firefox и посмотрите, что произойдет.

0 голосов
/ 12 января 2011

Ладно, ребята, я нашел это.Я проанализировал полученный исходный XML (как @TryPyPy).Я слишком доверял библиотеке feedparser.В последней официальной версии (4.1) есть ошибка, связанная с ошибкой тега title из пространства имен мультимедиа вместо исходного:

http://code.google.com/p/feedparser/issues/detail?id=76

Итак, я переустановил из trunk, и теперь все в порядке.Спасибо за помощь в любом случае!

0 голосов
/ 10 января 2011

AFAIK Google Reader совершает «магию» в контенте, чтобы его украсить Они удаляют некоторые теги и стили, чтобы не нарушать их интерфейс.

Можете ли вы предоставить более подробную информацию о различиях?

...