Какой тип корма использует журнал Nature? - PullRequest
0 голосов
/ 21 марта 2012

Я попытался разобрать ленту журнала природы, используя php и несколько разных программ чтения rss / atom, но не могу найти правильный способ их чтения.

Их структура фида странна для меня, это не RSS наверняка, но с помощью читателей атома я тоже не смог получить правильного ответа.

пример: http://feeds.nature.com/nphys/rss/current

Кто-нибудь знает, какой у них тип фида и как их анализировать?

Ответы [ 2 ]

1 голос
/ 21 марта 2012

Он использует то, что говорит в корневом элементе :

<rdf:RDF 
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:prism="http://prismstandard.org/namespaces/basic/2.0/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:content="http://purl.org/rss/1.0/modules/content/" 
    xmlns="http://purl.org/rss/1.0/"
    xmlns:admin="http://webns.net/mvcb/" 
    xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0">

См. https://en.wikipedia.org/wiki/RDF_feed

Различные дополнительные XML-пространства имен расширяют базовый RDF-документ элементами из других XML-приложений. Эти элементы без пространства имен являются элементами RSS 1.0, например,

<title>Nature Physics - Issue - nature.com science feeds</title>

На это также указывает xmlns="http://purl.org/rss/1.0/".

Следуйте указанным URL-адресам, чтобы узнать больше о приложениях XML, используемых в этом документе.

Вы можете легко проанализировать этот документ с помощью DOM или SimpleXML или XMLReader.

1 голос
/ 21 марта 2012

Согласно самому необработанному каналу (http://feeds.nature.com/nphys/rss/current?format=xml) это формат RSS1 с кучей других тегов, добавляемых через префикс xmlns:, который обозначает конкретное пространство имен для этих тегов (например, rdf, prism, feedburner и т. Д.Таким образом, если вы игнорируете все объявленные пространства имен (например, все с тегом, начинающимся с <something:something> или любым атрибутом с двоеточием в его имени, и просто анализируете теги, как если бы это было в спецификации RSS1 xml, все будет в порядке ..).

...