Проблема парсинга HTML DOM - PullRequest
       1

Проблема парсинга HTML DOM

0 голосов
/ 02 апреля 2011

Я пытаюсь разобрать html с помощью простого html dom.

Используя этот пример

<h3>
<span class="time">19:00
</span> 
<a href="/simpsons">The Simpsons</a> 
</h3>
<p class="synopsis">Fat Man and Little Boy: When Bart becomes a t-shirt mogul, and the household's main breadwinner, Homer worries that he no longer has a role in the family.
</p>
<a class="link" href="/simpsons/watch">Watch Now</a> 



<h3>
<span class="time">20:00</span> 
24
</h3>
<p class="synopsis">Emotions run high as the harrowing day climaxes with resolute President Taylor closing in on a world-changing peace treaty. 
</p>


<h3>
<span class="time">21:00</span> 
<a href="/lost">Lost</a> 
</h3>
<p class="synopsis">Pseudo-Locke tries to destroy the island and all of its inhabitants, while Jack attempts to stop him. 
</p>
<a class="link" href="/lost/watch">Watch Now</a> 

Как мне получить

  1. Время
  2. Заголовок
  3. Синопсис
  4. Ссылка (если она существует)

Как видите, исходные записи не совместимы, иногда названиеобернут в якорь и не всегда может иметь ссылку Watch Now.

1 Ответ

0 голосов
/ 02 апреля 2011

Это похоже на действительный XHTML, поэтому он также должен быть действительным XML. Просто пройдите его как обычный XML.

http://php.net/manual/en/book.xml.php

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...