Библиотека Python URLLib, на мой взгляд, довольно легко выполняет очистку.
import urllib, re
url = "http://www.z1035.com/player.php"
f = urllib.urlopen(url)
t = f.read()
# use regular expression here
m = re.search(t, "some pattern")
print m.group(1)
Это загрузит внешний ресурс, как если бы он был локальным файлом, и позволит вам проанализировать его при необходимости.
Когда-то я хотел сохранить все треклисты для радиопостановки, которую я слушал. Я использовал Python, чтобы загрузить список всех треклистов, а затем программно посетить каждый из них и добавить содержимое в файл. Это было очень удобно, и заняло, вероятно, 20 строк.