Как прокомментировано, может потребоваться некоторая путаница, чтобы сломанный XHTML работал так, как вам хотелось бы.
Вот быстрая, очень грубая таблица открытых данных для вас, которая удаляет любые <![CDATA[
и ]]>
со страницы (X) HTML (а также Tidys it) перед применением необязательного выражения XPath, как в обычной таблице html
, для получения необходимых данных.
Вы можете использовать его как:
use "https://github.com/salathe/yql-tables/raw/examples/data/nocdata.xml" as html;
select * from html where url="www.totalfilm.com"