Как анализировать / выщелачивать / извлекать содержимое сайта ASP.net, используя Ruby, PHP или Java? - PullRequest
0 голосов
/ 17 сентября 2009

Я занимаюсь хобби-проектом по очистке содержимого сайта ASP.net с использованием Ruby, PHP или Java. Например, если веб-сайт URL "www.myaspnet.com/home.aspx". Я хотел бы извлечь текстовое содержимое Unicode из home.aspx и вставить его в блокнот. Есть ли библиотеки на любом из вышеупомянутых языков? , Может ли кто-нибудь помочь мне в этом, предоставив подходящие ресурсы.

Спасибо!

Ответы [ 5 ]

1 голос
/ 17 сентября 2009

Звучит так, будто ты просто хочешь очистить контент.

Вы не «вставляете его в блокнот», вы просто записываете его в простой текстовый файл (который затем можно открыть в блокноте или любой другой программе, способной читать текстовый файл).

В целом:

$content = file_get_contents('http://example.com/url.asp');
//do some stuff to extract what you want and format it.  Probably using simplexml, or regular expressions to do the extraction
$fp = fopen('some_file.txt');
fwrite($fp,$stuff);
fclose($fp);

И все готово.

1 голос
/ 17 сентября 2009

Если вам нужен какой-то скриншот экрана, и вы предпочитаете Ruby, тогда вы можете проверить scRubyt или посмотреть этот экран, созданный Райаном Бейтсом.

1 голос
/ 17 сентября 2009

Если вы используете PHP, у вас должно получиться без особых сложностей, вы можете использовать curl для получения контента и simplexml & dom для перейти в HTML.

Возможно, вы также захотите взглянуть на xpath для простого извлечения контента.

0 голосов
/ 17 сентября 2009

Этот скринкаст в основном показывает, как шаг за шагом копировать сайт в Ruby. Он использует его для вывода приложения rails, должно быть легко сосредоточиться только на библиотеке Ruby ( ScrAPI ).

0 голосов
/ 17 сентября 2009

С помощью Java вы можете написать простую утилиту, используя HttpUnit для извлечения текста со страницы, затем перейдите по каждой из ссылок, представленных на странице, - рекурсивно просматривая их и выполняя ту же задачу.

Это должно быть довольно тривиальным упражнением, однако к внешним ссылкам нужно относиться с некоторой осторожностью, в зависимости от того, как далеко вы хотите пойти с индексированием.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...