Если вы хотите почистить страницу и разобрать ее, я рекомендую использовать узел с jsdom.
установить nodeJS (при условии, что Linux):
sudo apt-get install git
cd ~
git clone git://github.com/joyent/node
cd node
git checkout v0.6
mkdir ~/.local # If it doesn't already exist
./configure --prefix=~/.local
make
make install
Существует также установщик Windows: http://nodejs.org/dist/v0.6.6/node-v0.6.6.msi
install jsdom:
$ npm install jsdom
Запустите этот скрипт, измененный с вашим URL и соответствующими селекторами:
var jsdom = require('jsdom');
jsdom.env({
html: 'url',
done: function(errors, window) {
console.log(window.document.getElementById('foo').textContent;
}
});