Java-программа или Perl Script для копирования текста с веб-страницы - PullRequest
0 голосов
/ 12 февраля 2012

В частности, мне интересно, можно ли в java (предпочтительно) или perl ввести URL-адрес и скопировать его текст с этой страницы? В частности, я хочу иметь возможность искать что-то в Google и просто скопировать вставить первые 5 ссылок, которые появляются. Я не занимаюсь SEO или чем-то другим только для программы, над которой я работаю.

Ответы [ 2 ]

5 голосов
/ 12 февраля 2012

не уверен в Java (я уверен, что это возможно), но для Perl вы можете попробовать модуль CPAN, LWP / UserAgent может легко захватывать страницы

http://search.cpan.org/~gaas/libwww-perl-6.03/lib/LWP/UserAgent.pm

require LWP::UserAgent;

my $ua = LWP::UserAgent->new;
$ua->timeout(10);
$ua->env_proxy;

my $response = $ua->get('http://search.cpan.org/');

if ($response->is_success) {
 print $response->decoded_content;  # or whatever
}

Видел твой комментарий выше, поэтому подумал, что добавлю. Удалять пробелы в Perl легко:

$string =~ s/\s//g;

или применяется к вышеуказанному коду

$response->decoded_content =~ s/\s//g;
1 голос
/ 12 февраля 2012

Это определенно можно сделать на любом языке.Посмотрите на следующее для Java:

http://docs.oracle.com/javase/tutorial/networking/urls/readingURL.html

Из документации:

URL oracle = new URL("http://www.oracle.com/");
BufferedReader in = new BufferedReader(
    new InputStreamReader(
    oracle.openStream()));

String inputLine;

while ((inputLine = in.readLine()) != null)
  System.out.println(inputLine);

in.close();

Это даст вам HTML на странице.Вам нужно будет разобрать это при необходимости, чтобы вынуть конкретный интересующий вас текст.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...