Разбор HTML это сложно! Даже если вы найдете решение, которое работает для одного сайта, оно, скорее всего, сломается на другом. если вы сможете найти библиотеку, которая поможет вам, ваша жизнь станет намного проще.
Если вы не можете найти html-парсер для actionscript 2, возможно, вы могли бы настроить для него серверный скрипт? Как:
myXML.load("http://yourserver.com/cgi-bin/findrss?url=foo.com");
и затем вернуть URL как xml
Если вы попробуете этот подход, я рекомендую библиотеку python Beautiful Soup . Я использовал это раньше, и, на мой взгляд, это удивительно. Он будет работать на любом сайте, который вы ему предоставите, независимо от того, насколько ужасна разметка.
Это будет выглядеть примерно так:
#!/usr/bin/python
import cgi
import cgitb; cgitb.enable() # Optional; for debugging only
import urllib2
from BeautifulSoup import BeautifulSoup
def getRssFromUrl(url):
try:
Response = urllib2.urlopen(url)
except Exception:
print "<error>error getting url</error>"
return []
html = Response.read()
soup = BeautifulSoup(html)
rssFeeds = soup.findAll('link', attrs={"type" : "application/rss+xml"})
return rssFeeds
print "Content-type: text/xml\n\n"
form = cgi.FieldStorage()
if form.has_key("url") is True:
url = form["url"].value
else:
url = ""
print "<xml>"
rssFeeds = getRssFromUrl(url)
for feed in rssFeeds:
print ("<url>%s</url>" % feed["href"])
print "</xml>"