доступ к XML элементам и пространствам имен с новостного сайта с помощью PHP (отредактировано) - PullRequest
0 голосов
/ 22 марта 2020

Я извлек xml содержимое с помощью file_get_contents и попытался SimpleXMLElement, но полученный массив PHP содержит только родительские элементы данных XML.

Вот мой xml файл :

    <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:news="http://www.google.com/schemas/sitemap-news/0.9"
        <news:title>Crise sanitaire : malgré les annonces du gouvernement, les intermittents du spectacle restent
            <news:name>Le Monde</news:name>
        <image:caption>Devant le Palais des festivals, en mai 2019, à Cannes.</image:caption>
        <news:title>L’eau à l’épreuve des changements climatiques</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>Une ferme de la région de la Nouvelle-Galles du Sud, le 27 août 2019. L’Australie faisiat
            alors face à une pénurie d’eau sans précédent.
        <news:title>Journal de crise des blouses blanches : « La cot nsigne est de se cacher quand le brancard passe
            <news:name>Le Monde</news:name>
        <news:title>Coronavirus : Olivier Faure réclame une « économie de guerre » face à l’épidémie</news:title>
            <news:name>Le Monde</news:name>
        <news:title>Guinée : le référendum constitutionnel et les législatives troublés par des violences
            <news:name>Le Monde</news:name>
        <image:caption>Le président guinéen Alpha Condé s’adresse aux médias après avoir voté dans un bureau de vote
            de Conakry, le 22 mars 2020.
        <news:title>Suzanne Clément, actrice canadienne : « Le Québec a une forte tradition de séries et feuilletons
            <news:name>Le Monde</news:name>
        <image:caption>L’actrice canadienne Suzanne Clément, lors de la 71e édition du Festival de Cannes, le 8 mai
        <news:title>Coronavirus : le sport français cherche comment exprimer son souhait d’un report des JO
            <news:name>Le Monde</news:name>
        <image:caption>Plusieurs férédations sportives de poids, comme celles de natation et d’athlétisme aux
            Etats-Unis, ont fait comprendre, en fin de semaine, qu’elles sont favorables à un report des Jeux
            olympiques, prévus à Tokyo fin juillet.
        <news:title>Accueil des enfants de soignants à l’école : « C’est une démarche de solidarité naturelle »
            <news:name>Le Monde</news:name>
        <news:title>Au Mexique, l’étonnante décontraction du président « AMLO » face au coronavirus</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>Les espaces publics sont désinfectés pour éviter la propagation du nouveau coronavirus, à
            Guadalajara, au Mexique, le 20 mars.
        <news:title>Coronavirus : l’épidémie avance en Afrique subsaharienne, en nombre de malades et de pays
            <news:name>Le Monde</news:name>
        <image:caption>Vendredi 20 mars, un marché de Lagos, au Nigeria (AP Photo/Sunday Alamba)</image:caption>
        <news:title>Suivez en direct l’émission « Questions politiques » avec Jean-Luc Mélenchon</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>Jean-Luc Melenchon, à l’Assemblée nationale, le 19 mars 2020.</image:caption>
        <news:title>En mode confinés : la robe de chambre en soie</news:title>
            <news:name>Le Monde</news:name>
        <news:title>Barbara, sans fard ni artifice, sur Arte</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>Image d’archives de Barbara.</image:caption>
        <news:title>Coronavirus : y a-t-il un risque prochain de pénurie alimentaire ?</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>Une employée remplit les rayons d'un intermarché à issy-Les-Moulineaux dans les Hauts de
            Seine avant l'ouverture du magasin, le 18 mars 2020. Le supermarché ouvre exceptionnellement de 8h à
            8h30 uniquement pour les clients de plus de 70 ans, pour répondre aux besoins en plein confinement
            provoqué par l'épidémie de Coronavirus. Lucas Barioulet pour Le Monde
        <news:title>Bordeaux et la Nouvelle-Aquitaine se préparent à un « afflux de malades dans les jours à venir
            <news:name>Le Monde</news:name>
        <image:caption>A Bordeaux, le 21 mars.</image:caption>
        <news:title>« Relocaliser n’est plus une option mais une condition de survie de nos systèmes économiques et
            sociaux »
            <news:name>Le Monde</news:name>
        <image:caption>« Dans l’industrie pharmaceutique () 80 % des principes actifs des médicaments sont importés
            de Chine et d’Inde, contre 20 % il y a trente ans ». Photo : Le port de Busan (Corée du Sud) avec des
        <news:title>Hubert Velud : « Quand je raconte à mes joueurs soudanais ce qui se passe en France, ils ne me
            croient pas »
            <news:name>Le Monde</news:name>
        <image:caption>L’entraîneur français Hubert Velud avec les Crocodiles du Nil, l’quipe nationale du Soudan,
            le 18 février 2020 à Khartoum.
        <news:title>Croatie : un séisme frappe Zagreb et fait d’importants dégâts matériels</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>A Zagreb, dimanche 22 mars 2020.</image:caption>
        <news:title>Face au coronavirus, les puissantes églises sud-africaines tentent de s’adapter</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>Des fidèles de la Nala Mandate Church prient pour freiner la propagation du coronavirus, à
            Durban, en Afrique du Sud, le 19 mars 2020.
        <news:title>Coronavirus : « Cela n’arrive qu’aux autres, aux pauvres, aux consommateurs de chauve-souris et
            autres animaux dégoûtants »
            <news:name>Le Monde</news:name>
        <image:caption>« Il n’y a pénurie ni de gel, ni de masques » (Touristes étrangers à Hanoï, le 17 mars).
        <news:title>France Culture se mobilise pour aider élèves et étudiants confinés</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>La Maison de la radio, ici en juin 2014.</image:caption>
        <news:title>« Vivre l’épidémie en étant expatrié, c’est prendre de plein fouet la distance »</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>A Paris, le 20 mars.</image:caption>
        <news:title>Etre écrivain en Inde, un métier à risques</news:title>
            <news:name>Le Monde</news:name>
        <image:caption>A Yavatmal, Maharashtra, en Inde. Sur l’affiche centrale, le portrait de Bhimrao Ramji
            ­Ambedkar (1891-1956), leader ­dalit dont les livres font toujours autorité et scandale en Inde
        <news:title>Romans de l’Inde : Bibhouti Bhoushan Banerji, Manu Joseph, Meena Kandasamy, Jeet Thayil…
            <news:name>Le Monde</news:name>

При использовании simplexml_load_string я получаю PHP массив :

SimpleXMLElement Object
    [url] => Array
            [0] => SimpleXMLElement Object
                    [loc] => https://www.lemonde.fr/culture/article/2020/03/22/crise-sanitaire-malgre-les-annonces-du-gouvernement-les-intermittents-du-spectacle-restent-inquiets_6034031_3246.html
                    [lastmod] => 2020-03-12T20:00:12+01:00

            [1] => SimpleXMLElement Object
                    [loc] => https://www.lemonde.fr/climat/article/2020/03/22/l-eau-a-l-epreuve-des-changements-climatiques_6034029_1652612.html
                    [lastmod] => 2020-03-22T16:34:35+01:00<

            [2] => SimpleXMLElement Object
                    [loc] => https://www.lemonde.fr/journal-blouses-blanches/article/2020/03/22/journal-de-crise-des-blouses-blanches-la-consigne-est-de-se-cacher-quand-le-brancard-passe_6034028_6033712.html
                    [lastmod] => 2020-03-22T16:02:29+01:00

Мне нужно получить указанный элемент c, так как я могу получить к ним доступ? Заранее спасибо!


Я нашел способ добраться до элементов пространства имен, но мой код работает в l oop, получая десятки тысяч элементов вместо примерно 200. Похоже, проблема с увеличением и URL (lo c). Я пытался отлаживать, но мне явно не хватает метода для начинающих. Вот мой код. Кто-нибудь может указать мне правильное направление, чтобы решить эту ошибку?

        $xmldataNews = simplexml_load_file('https://www.lemonde.fr/sitemap_news.xml');                     //  Load XML data
        $nameSpace = $xmldataNews->getNamespaces(true); // URI namespaces
        $nombreNews = $xmldataNews->count();
        $urls = $xmldataNews->url;
        for ($i = 0; $i < $nombreNews; $i++) {
            foreach ($urls as $url) {
                $news = ($url->children($nameSpace['news']))->news;   //  Get news name of the tag <news:name>
                $pubDateRaw = ($url->children($nameSpace['news']))->news->publication_date;  // Get the publication date of the news of the tag <news:publication_date>
                $datefr = date_create($pubDateRaw);  // date creation
                echo '<tr><td><a href="'.$url->loc.'" target="_blank">'.$news->title.'</td><td>'.date_format($datefr, "d/m/Y H:i:s").'</td></tr>';  // Display

Ответы [ 2 ]

1 голос
/ 22 марта 2020

Вы можете использовать XPath для перемещения по документу:

$xml = simplexml_load_string($content);
$xml->registerXPathNamespace('s', 'http://www.sitemaps.org/schemas/sitemap/0.9'); // xpath need to have an 'alias' to query the anonymous namespace

$urls = $xml->xpath('//s:url'); // retrieve all url items

foreach($urls as $url) // loop over each url item
    $url->registerXPathNamespace('s', 'http://www.sitemaps.org/schemas/sitemap/0.9');

    // string conversion gives you only the content of the node
    $title = (string) $url->xpath('news:news/news:title')[0];
    $loc = (string) $url->xpath('s:loc')[0];
    $lastmod = (string) $url->xpath('s:lastmod')[0];
    $pubDate = (string) $url->xpath('news:news/news:publication_date')[0] ;

    echo $title . PHP_EOL; 
    echo $loc . PHP_EOL ; 
    echo $lastmod . PHP_EOL ; 
    echo $pubDate . PHP_EOL; 

// означает, что вы просматриваете все узлы с этим именем, где бы в документе, и один / означает, что вы смотрите на прямые потомки узла. Вы можете прочитать документацию XPath, чтобы иметь больше команд.

XPath возвращает вам набор узлов, поэтому я всегда запрашиваю первый элемент с помощью [0] (при условии, что в вашем документе есть только один такой элемент)

0 голосов
/ 24 марта 2020

Мой старший преподаватель кода придумал это короткое и эффективное решение, предполагая, что любая сортировка перед выводом должна быть сделана, скажем, с js.

благодаря @ Joffrey-Schmitz для его подхода с Xpath (прокрутите немного вверх, чтобы увидеть его), который тоже работал хорошо.

Если кто-то знает, как реализовать сортировку выходных данных в PHP, я был бы очень заинтересован и благодарен!

    $xml = 'https://www.lemonde.fr/sitemap_news.xml';
    $xmldataNews = simplexml_load_file($xml);  // Load XML 
    $nameSpace = $xmldataNews->getNamespaces(true);          // namespace URI 
    $nombreNews = $xmldataNews->count();     // count elements in xml
    for ($i = 0; $i < $nombreNews; $i++) {  // increment conditions with elements count as limit
        foreach ($xmldataNews->url[$i]->children($nameSpace['news']) as $element)      // looping thru <url>/<news:news>/ elements, increment on <url>
            $datefr = new DateTime($element->publication_date);  // date representation (date format is donne inside echo
            echo '<tr><td><a href="'.$xmldataNews->url[$i]->loc.'" target="_blank">'.$element->title.'</td><td>'.date_format($datefr, "d/m/Y H:i:s").'</td></tr>';  // Display
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.