Сохранение динамического контента с веб-страницы? - PullRequest
0 голосов
/ 05 августа 2009

Можно ли сохранить динамический текст с веб-сайта и поместить его в файл на моем сервере? Конкретный случай, который меня интересует - это сохранение названия песни с этой страницы http://www.z1035.com/player.php и сохранить все названия песен в файле на моем сервере. Это возможно? Какие методы я мог бы использовать для этого?

Ответы [ 2 ]

5 голосов
/ 05 августа 2009

То, на что вы ссылаетесь, обычно называют «соскабливанием». Вот статья об одном из способов сделать это с помощью PHP:

http://www.developertutorials.com/blog/php/easy-screen-scraping-in-php-simple-html-dom-library-simplehtmldom-398/

0 голосов
/ 05 августа 2009

Библиотека Python URLLib, на мой взгляд, довольно легко выполняет очистку.

import urllib, re

url = "http://www.z1035.com/player.php"
f = urllib.urlopen(url)
t = f.read()
#  use regular expression here 
m = re.search(t, "some pattern")
print m.group(1)

Это загрузит внешний ресурс, как если бы он был локальным файлом, и позволит вам проанализировать его при необходимости.

Когда-то я хотел сохранить все треклисты для радиопостановки, которую я слушал. Я использовал Python, чтобы загрузить список всех треклистов, а затем программно посетить каждый из них и добавить содержимое в файл. Это было очень удобно, и заняло, вероятно, 20 строк.

...