Парсинг медиа RSS с использованием XMLReader - PullRequest
2 голосов
/ 29 мая 2009
<rss version="2.0"
    xmlns:media="http://search.yahoo.com/mrss/">
    <channel> 
        <title>Title of RSS feed</title> 
        <link>http://www.google.com</link> 
        <description>Details about the feed</description> 
        <pubDate>Mon, 24 Nov 08 21:44:21 -0500</pubDate> 
        <language>en</language> 
        <item> 
            <title>Article 1</title> 
            <description><![CDATA[How to use StackOverflow.com]]></description>
            <link>http://youtube.com/?v=y6_-cLWwEU0</link>
            <media:player url="http://youtube.com/?v=y6_-cLWwEU0"    /> 
            <media:thumbnail url="http://img.youtube.com/vi/y6_-cLWwEU0/default.jpg"
                width="120" height="90" /> 
            <media:title>Jared on StackOverflow</media:title> 
            <media:category label="Tags">tag1,tag2</media:category> 
            <media:credit>Jared</media:credit> 
            <enclosure url="http://youtube.com/v/y6_-cLWwEU0.swf"
                length="233"
                type="application/x-shockwave-flash"/>
        </item>
    </channel>
</rss>

Я решил использовать XMLReader для анализа моих больших XML-файлов. У меня проблемы с получением данных внутри каждого элемента, особенно с миниатюрой

Вот мой код

//////////////////////////////

$itemList = array();
$i=0;
$xmlReader = new XMLReader();
$xmlReader->open('XMLFILE');
while($xmlReader->read()) {
    if($xmlReader->nodeType == XMLReader::ELEMENT) {
            if($xmlReader->localName == 'title') {
                    $xmlReader->read(); 
            $itemList[$i]['title'] = $xmlReader->value;
        }
        if($xmlReader->localName == 'description') {
            // move to its textnode / child
            $xmlReader->read(); 
            $itemList[$i]['description'] = $xmlReader->value; 

        } 
            if($xmlReader->localName == 'media:thumbnail') {
            // move to its textnode / child
            $xmlReader->read(); 
            $itemList[$i]['media:thumbnail'] = $xmlReader->value; 
                    $i++;
        }       
    }
}
////////////////

Желательно ли использовать DOMXpath, так как я анализировал огромный XML-файл? Я очень ценю ваш совет.

1 Ответ

5 голосов
/ 02 июня 2009

кстианский,

Если вы беспокоитесь об использовании памяти, я бы рекомендовал держаться подальше от DOM / XPath, так как он требует, чтобы весь файл был сначала прочитан в память. XMLReader читает только по частям за раз (вероятно, 8 КБ, так как это кажется стандартным размером фрагмента PHP).

Я переписал то, что вы изначально опубликовали, и он фиксирует следующие элементы, содержащиеся в элементе <item>:

  1. title
  2. description
  3. media:thumbnail
  4. media:title

Следует помнить, что XMLReader::localName будет возвращать имя элемента минус любое объявление XMLNS (например, media:thumbnail localName равно thumbnail). Вы должны быть осторожны с этим, так как значение media:title может перезаписать значение title.

Вот что я переписал:

<code><?php
define ('XMLFILE', dirname(__FILE__) . '/Rss.xml');
echo "<pre>";

$items = array ();
$i = 0;

$xmlReader = new XMLReader();
$xmlReader->open (XMLFILE, null, LIBXML_NOBLANKS);

$isParserActive = false;
$simpleNodeTypes = array ("title", "description", "media:title");

while ($xmlReader->read ())
{
    $nodeType = $xmlReader->nodeType;

    // Only deal with Beginning/Ending Tags
    if ($nodeType != XMLReader::ELEMENT && $nodeType != XMLReader::END_ELEMENT)
    {
        continue;
    }
    else if ($xmlReader->name == "item")
    {
        if (($nodeType == XMLReader::END_ELEMENT) && $isParserActive)
        {
            $i++;
        }
        $isParserActive = ($nodeType != XMLReader::END_ELEMENT);
    }

    if (!$isParserActive || $nodeType == XMLReader::END_ELEMENT)
    {
        continue;
    }

    $name = $xmlReader->name;

    if (in_array ($name, $simpleNodeTypes))
    {
        // Skip to the text node
        $xmlReader->read ();
        $items[$i][$name] = $xmlReader->value;
    }
    else if ($name == "media:thumbnail")
    {
        $items[$i]['media:thumbnail'] = array (
            "url" => $xmlReader->getAttribute("url"),
            "width" => $xmlReader->getAttribute("width"),
            "height" => $xmlReader->getAttribute("height")
        );
    }
}

var_dump ($items);

echo "
"; ?>

Если у вас есть какие-либо вопросы о том, как это работает, я был бы более чем рад ответить на них для вас.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...