Я только что создал скрипт, который извлекает статью из веб-страницы через JS на стороне сервера. (Если вам интересно: он используется для http://pipes.yahoo.com/fb55/expandr.)
У меня просто небольшая проблема с внутренними ссылками. Некоторые страницы содержат ссылки, такие как:
/subfolder/subpage.html
Мне нужно исправить их и установить root, например:
protocol://secondlevel.firstlevel/subfolder/subpage.html
Я использую E4X для обработки страницы. Я не хочу показывать свою текущую жуткую попытку, она глючная и медленная. У кого-нибудь есть решение для меня?