Я пытаюсь использовать YQL для извлечения части HTML из серии веб-страниц. Сами страницы имеют немного иную структуру (так что «выборка страницы» Yahoo Pipes с ее функцией «Вырезать контент» не работает), но интересующий меня фрагмент всегда имеет один и тот же атрибут class
.
Если у меня есть такая HTML-страница:
<html>
<body>
<div class="foo">
<p>Wolf</p>
<ul>
<li>Dog</li>
<li>Cat</li>
</ul>
</div>
</body>
</html>
и используйте выражение YQL, подобное этому:
SELECT * FROM html
WHERE url="http://example.com/containing-the-fragment-above"
AND xpath="//div[@class='foo']"
что я получаю, это (очевидно, неупорядоченные?) Элементы DOM, где я хочу сам HTML-контент. Я также пробовал SELECT content
, но это только текстовое содержимое. Я хочу HTML. Это возможно?