Копировать текст с веб-страницы - PullRequest
3 голосов
/ 28 декабря 2010

Допустим, у нас есть сайт speedywap.com

Когда я открываю веб-сайт в своем браузере, а затем копирую страницу в буфер обмена и вставляю ее в блокнот (окна), остается только текст. Весь код удален, за исключением текста, который был в ссылках и т. Д. (Т.е. отображается на экране).

Я хочу сделать что-то похожее с php, потому что я пытаюсь создать анализатор плотности ключевых слов. Поэтому я хочу что-то, что может просто сохранить текст с веб-страницы, отображаемой на экране.

Мой сервер работает под управлением Apache, PHP, Centos и MySQL

Ответы [ 7 ]

5 голосов
/ 02 марта 2011
<?php
$content = file_get_contents('http://speedywap.com');
echo $content;
?>

вы можете использовать strip_tags, чтобы убрать с него теги, тогда у вас останется только текст.

2 голосов
/ 28 декабря 2010

Для очень наивного начала вы можете использовать это:

<?php

echo strip_tags(file_get_contents('http://speedywap.com'));

?>
1 голос
/ 02 февраля 2011

разработайте свой код на этом -> http://www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/

1 голос
/ 28 декабря 2010
function curl($url){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
    return curl_exec($ch);
    curl_close ($ch);
}

$html = curl('http://speedywap.com');

cURL во много раз быстрее, чем fgc. Вы можете использовать strip_tags, но это ничего не гарантирует, единственный способ - вручную проанализировать страницу, используя str_replace, preg_replace и т. Д.

Вот что вы получаете, используя strip_tags: http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png

0 голосов
/ 28 декабря 2010

Вы также можете использовать strip_tags: http://php.net/manual/en/function.strip-tags.php

0 голосов
/ 28 декабря 2010

Вы можете использовать file_get_contents('http://www.speedywap.com/');, чтобы получить исходный код страницы, а затем использовать некоторые фильтры / регулярные выражения, чтобы получить нужный вам текст.

0 голосов
/ 28 декабря 2010

Используйте file_get_contents или curl, если хотите пофантазировать.

<?php
$content = file_get_contents('http://speedywap.com');
echo $content; // or analyze, or whatever
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...