Как я могу почистить результаты поиска Google со страницы 1 до 2 - PullRequest
0 голосов
/ 16 января 2020

Я бы хотел обработать результаты поиска Google до страницы 2, но у меня возникли проблемы с результатом на пустой странице моего сайта или тайм-аута.

for($j=0; $j<$acount; $j++){
sleep(60);
for($sp = 0; $sp <= 10; $sp+=10){
                        $url = 'http://www.google.'.$lang.'/search?q='.$in.'&start='.$sp;
                        if($sp == 10){
                            $datenbank = "proxy_work.php"; 
                            $datei = fopen($datenbank,"a+");
                            fwrite($datei, $data);  
                            fwrite ($datei,"\r\n");
                            fclose($datei);
                        } else {

                            $datenbank = "proxy_work.php"; 
                            $datei = fopen($datenbank,"w+");
                            fwrite($datei, $data);  
                            fwrite ($datei,"\r\n");
                            fclose($datei);
                        }
}
                        $html = file_get_html("proxy_work.php");
                        foreach($html->find('a') as $e){
                            //  $title = $h3->innertext;
                            $link  = $e->href;
                        if(in_array($endomain, $approveurl)){ 
                                }
                            // if it is not a direct link but url reference found inside it, then extract
                            if (!preg_match('/^https?/', $link) && preg_match('/q=(.+)&amp;sa=/U', $link, $matches) && preg_match('/^https?/', $matches[1])) {
                                $link = $matches[1];
                         } else if (!preg_match('/^https?/', $link)) { // skip if it is not a valid link
                                continue;
                            } 
                        }

}

1 Ответ

0 голосов
/ 22 января 2020

Страницы результатов поиска Google (SERP) не похожи на обычный веб-сайт со статусом c html. Google сохраняет свои данные от очистки веб-страниц. Рассмотрите его данные как бизнес-каталог и просмотрите следующие советы по очистке бизнес-каталога:

  1. IP-проксирование.
  2. Имитация поведения человека с помощью некоторой автоматизации браузера инструменты (Selenium, iMacros и др.).

Подробнее здесь .

...