DomDoc / SimpleXML / XSLT: синтаксический анализ для добавления автоматически увеличивающихся атрибутов id к каждому уникальному дочернему элементу элемента - PullRequest
4 голосов
/ 27 июля 2011

Я уже некоторое время устраняю неполадки, и я немного новичок в программировании. Даже когда я нахожу ошибку, очень сложно понять, как ее исправить. Сейчас я пытаюсь понять, как я неправильно использовал xpath, потому что кто-то сказал мне, что я неправильно использую xpath. Я надеюсь, что кто-то может дать мне толчок, сказав мне, что я делаю неправильно, особенно с помощью итераций, если я делаю что-то не так. Это мой последний вечер работы над этим проектом, и я действительно хочу закончить его, если смогу. Итак, я действительно мог бы использовать помощь. Вот код, который я использую, с комментариями:

$xml = @simplexml_load_file("original.xml"); //Loading the original file, dubbed original.xml.
$array_key_target_parent = count($xml->xpath('/doc/*'); //Puts all of the children of <doc> into an _iterable_ array.
$key_targets = foreach($array_key_target_parent;){
  foreach($array_key_target_parent as $single_target){ // I tried foreach($array_key_target_parent[$i]).  It doesn't work, so don't even go there.
    $current_target = current($single_target);
} */ ////Puts the targets for keying into iterable arrays.  =>1 makes the array start from 1, so the id's will be right.

/* At this point, we have multiple elements that we want to key, each having a unique name.  There's <element_type1a> and <element_type1b>, etc.  We want each one to have its own id set.  So, we have to embed iteration within iteration. */
foreach($key_target){ //This will ensure that every unique element that we want to key gets its key set.
  $id = current($key_target=>1); //This allows us to reset the id to 1 (=>1), each time the key algorithm starts for a new element.
  foreach($key_target as $id){ //I tried for($i=0, $key_target[$i]; $i>$key_target; $i++), and it didn't work, so don't even go there.
    addAttribute('id', '$id');
}  //Adds an 'id' attribute and a unique number to each target.

$xml->asXML("new.xml"); //saves the output as a new xml document, new.xml

У меня также есть общий XML-файл:

        <element_type2c lang="fr">not_unique_data</element_type2c>
        <!-- ... --->
    <!-- ... --->

Желаемый вывод:

    <table id="element_type1">
        <element_type1a id="1">unique_data</element_type1a>
        <element_type1b id="2">unique_data</element_type1b>
        <!-- ... --->
        <element_type1N id="M">unique_data</element_type1N>
    <table id="element_type2">
        <element_type2a id="1">unique_data</element_type2a>
        <element_type2b id="2">unique_data</element_type2b>
        <!-- ... --->
        <element_type2N id="M">unique_data</element_type2N>
    <table id="element_type2_fr">
        <element_type2a lang="fr" id="1">unique_data</element_type2a>
        <element_type2b lang="fr" id="2">unique_data</element_type2>
        <!-- ... (there are five languages) --->
        <element_type2N lang="fr" id="M">unique_data</element_type2N>
    <!-- ... --->
    <table id="element_typeN">


    <table id="intermediary_table_type1xtype2">
        <element id="1">
        <element id="2">
        <element id="3">
        <element id="4">
        <!-- ... --->
        <element id="N">

    <table id="intermediary_table_typeMxtypeN">

Я также видел много очень похожих вопросов, и у меня есть некоторые ресурсы, которые я собрал у них и прочитал:

Это самые полезные ссылки:

И я обнаружил, что ни одно из применений вопросов не могло привести к результату, которого я пытаюсь достичь. Исключением является ссылка на Он ориентирован на выпускников CS-аудитории, и кажется, что они делают то же самое, за исключением того, что идентификаторы, которые они используют, не являются автоинкрементными. Алгоритм, который они используют, чрезвычайно сложен, и они вообще не прокомментировали свой код. По какой-то причине они используют пространство имен в своем пространстве имен, и хотя это самое близкое, что я могу найти, я не могу воспроизвести его ни в малейшей степени.


Реальная выдержка из документа XML, который я хотел бы проанализировать для изменения структуры данных:

<?xml version="1.0"?>
<!DOCTYPE catalog [
<!ELEMENT catalog (entry*)>
<!ELEMENT entry (ent_seq, country*, arist+, info?, title+)><!-- Entries consist of the name of the album, artist, and more information about the CD.  Each entry must contain an artist and an album title. -->
<!ELEMENT ent_seq (#PCDATA)><!-- A unique numeric sequence, showing the entry number -->
<!ELEMENT title (#PCDATA)><!-- The title of the album/the album name. -->
<!ELEMENT artist (band+, name, nickname*)><!-- The name of the band, and if there was a famous artist, his name and nickname.  Must contain a band element. -->
<!ELEMENT band (#PCDATA)><!-- The name of the band. -->
<!ELEMENT name (#PCDATA)><!-- The name of any famous artist in the band. -->
<!ELEMENT nickname (#PCDATA)><!-- The nickname of the popular artist that precedes the nickname element, from the band. -->
<!ELEMENT country (#PCDATA)><!-- Specifies countries where the album was released -->
<!ELEMENT company (name, country)><!-- Company/producer info.  The company's name is in the name element, and the country where the company originated is in the country element. -->
<!ELEMENT name (#PCDATA)><!-- The name of the producer -->
<!ELEMENT country (#PCDATA)><!-- The country where the company does its primary business -->
<!ELEMENT year (#PCDATA)><!-- The year of the album's release -->
<!ELEMENT info (link*, bibl*)><!-- Additional info, including links and bibliography information -->
<!ELEMENT link (#PCDATA)><!-- Links where people can read more about the album -->
<!ELEMENT bibl (#PCDATA)><!-- Bibliography text about the artist -->
    <title>For Your Love</title>
      <name>The Yardbirds</name>
      <name>Eric Clapton</name>
      <name>Sweet Music</name>
    <title>Splish Splash</title>
      <name>Roberto Carlos</name>
      <nickname>The King</nickname>
      <name>Sweet Music</name>
    <title>How Great Thuo Art</title>
      <name>Elvis Presley</name>
      <nickname>The King</nickname>
      <nickname>The King of Rock 'n Roll</nickname>
      <name>Felton Jarvis</name>
    <title>Big Willie style</title>
      <band>Will Smith</band>
      <name>Will Smith</name>
    <title>Empire Burlesque</title>
      <band>Bob Dylan and Boby Rockhammer</band>
      <name>Bob Dylan</name>
      <name>Boby Rockhammer</name>
  <cd>  <!-- Update part 1: New Entry -->
    <title>Merry Christmas</title>
    <title>White Christmas</title>
      <name>Bing Crosby</name>
    <company>MCA Records</company>
  </cd> <!-- End update part 1-->

Реальный пример желаемой выходной выборки:

  <table id="album title">
    <title id="1">For your Love</title>
    <title id="2">Splish Splash</title>
    <title id="3">How Great Thuo Art</title>
    <title id="4">Big Willie style</title>
    <title id="5">Empire Burlesque</title>
    <title id="6">Merry Christmas</title> <!-- Update part 2: New output -->
    <title id="7">White Christmas</title> <!-- Update part 2: New output -->
  <table id="Band Name">
    <artist id="1">The Yardbirds</artist>
    <artist id="2">Roberto Carlos</artist>
    <artist id="3">Elvis Presley</artist>
    <artist id="4">Will Smith</artist>
    <artist id="5">Bob Dylan and Boby Rockhammer</artist>
    <artist id="6"> <!-- Update part 2: New output -->
  <table id="artist name">
    <artist id="1">Eric Clapton</artist>
    <artist id="2">Roberto Carlos</artist>
    <artist id="3">Elvis Presley</artist>
    <artist id="4">Will Smith</artist>
    <artist id="5">Bob Dylan</artist>
    <artist id="6">Boby Rockhammer</artist>
    <artist id="7">Bing Crosby</artist> <!-- Update part 2: New output -->
  <table id="nickname">
    <nickname id="1">Slowhand</nickname>
    <nickname id="2">The King</nickname>
    <nickname id="3">The King of Rock 'n Roll</nickname>


  <table id="artist by band name">
    <entry id="1">
    <entry id="2">
    <entry id="3">
    <entry id="4">
    <entry id="5">
    <entry id="6">
    <entry id="7">
  <table id="artist by nickname">
    <entry id="1">
    <entry id="2">
    <entry id="3">
    <entry id="4">

- ОБНОВЛЕНИЕ-- Существует проблема, при которой два элемента имеют одинаковый идентификатор записи

В другом XML-документе, который я имею,

<entry id="1">
  <word lang="SP">azul</word>

и я хочу, чтобы вывод был

Таблицы данных:

<table id="en">
  <word lang="en" id="0">blue</word>
  <word lang="en" id="1">beryl</word>
<table id="sp">
  <word lang="sp" id="0">azul</word>

Таблица посредников:

<table id="translation id">
  <en_sp id="0"> <!-- en_sp means English-to-Spanish -->

Ответы [ 2 ]

2 голосов
/ 07 августа 2011


Предполагается, что xml подобен этому:

    <entry id="1">
      <word lang="SP">azul</word>
    <entry id="2">

Попробуйте это:

$super = array();
$url = "original.xml";
if ($xml = @simplexml_load_file($url, 'SimpleXMLElement', LIBXML_NOCDATA)) {
  foreach($xml->cd as $cd) {
     foreach ($cd->entry as $entry) {
      $id = (string)$entry['id'];
        foreach($entry->word as $word) {
            $lang = isset($word['lang']) ? (string)$word['lang'] : 'EN';
            $super[$id][$lang][] = (string)$word;

отображение с использованием:

<code>print "<pre>";
print "

примечание: это еще один подход, в основном то, что вам нужно понять при работе с объектом XML и больше в целом сМассивы в том, что вы можете хранить данные, создавая структурированную иерархию на основе parent -> child, в этом случае я создал массив, подобный этому $super[$id][$lang][] = (string)$word;, где $id является родителем $lang, который является родителем $word это соответственно дочерний элемент для обоих, это приведет к созданию массива, подобного следующему:

    [1] => Array
            [EN] => Array
                    [0] => blue
                    [1] => beryl

            [SP] => Array
                    [0] => azul


необходимо учитывать следующее:

  1. как получить свойства совпавшеготеги типа id или lang, в моем примере я использовал $entry['id'], но $cd->entry['id'] также допустим.

  2. как преобразовать объект xml-dom-объект вдопустимая строка, так что вы можете использовать ее как индекс массива или значение, например (string)$word

из того, что я могу видеть из вашего examples:

    <title>For Your Love</title>


$super = array();
$url = "original.xml";
if ($xml = @simplexml_load_file($url, 'SimpleXMLElement', LIBXML_NOCDATA)) {
  $xml_array = @json_decode(@json_encode($xml), 1);
  foreach ($xml_array['cd'] as $val) {
  $key = $val['ent_seq'];
    if (is_array($val)) {
      foreach ($val as $k1 => $v1) {
        if (is_array($v1)) {
          switch ($k1) {
            case 'artist':
              foreach ($v1 as $k2 => $v2) {
                if (is_array($v2)) {
                  foreach ($v2 as $v3) {
                    $super[$k2][$key] = $v3;
                else {
                  $super[$k2][$key] = $v2;
        else {
          switch ($k1) {
            case 'title':
              $super[$k1][$key] = $v1;

отобразить результаты, повторяющиеся в массиве, следующим образом:

foreach( $super as $key => $val) {
  echo "<table id='{$key}'>\n";
   foreach($val as $key2 => $val2) {
    echo "<$key id='$key2'> " . $val2." </$key>\n";
    echo "</table>\n";                


, чтобы лучше рассмотретьСтруктура массива вы можете напечатать так:

<code>print "<pre>";
print "

это будет отображать массив следующим образом:

    [title] => Array
            [1] => For Your Love
            [2] => Splish Splash
            [3] => How Great Thuo Art
            [4] => Big Willie style
            [5] => Empire Burlesque

    [name] => Array
            [1] => Eric Clapton
            [2] => Roberto Carlos
            [3] => Elvis Presley
            [4] => Will Smith
            [5] => Boby Rockhammer

    [nickname] => Array
            [1] => Slowhand
            [2] => The King
            [3] => The King of Rock 'n Roll

    [band] => Array
            [4] => Will Smith
            [5] => Bob Dylan and Boby Rockhammer


примечание: , как вы можете видеть, я использовал switch-case, потому что вашxml-теги не всегда имеют одинаковую консистенцию и имеют схожие имена в некоторых случаях, например <company><name> и <artist><name>;вы можете создавать свои собственные дела.

однако, как и сейчас, он хорошо работает с полями, которые вы хотите захватить, как в примере.

0 голосов
/ 27 июля 2011

Просто чтобы уточнить, вы пытаетесь взять входной XML-документ, преобразовать его в другой (по-разному отформатированный) XML-документ с использованием XSL / T, а затем взять полученный XML-код и сохранить его в базе данных MySQL?

Я новичок в переполнении стека, поэтому не уверен, как добавить комментарий к исходному сообщению.
