Очистка данных на основе поисковых систем - PullRequest
0 голосов
/ 29 июня 2018

Можно ли отказаться от Интернета на основе ключевых слов с помощью поисковых систем в PHP?

Как, например, при вводе ключевого слова сценарий будет искать в Google и отображать результаты, а затем отображать страницы и извлекать / извлекать строку, содержащую соответствующие ключевые слова?

Любая идея или библиотека для ссылки?

Ответы [ 2 ]

0 голосов
/ 29 июня 2018

Вы можете сделать это, используя Google API https://developers.google.com/custom-search/json-api/v1/overview и связанный клиент php https://github.com/google/google-api-php-client.

Позже вам нужно написать веб-скребок для загрузки веб-сайтов (curl) и парсера html-парсера (т.е. https://github.com/paquettg/php-html-parser).

Я бы, однако, не рекомендовал php для последней задачи. Для python есть гораздо более сложные инструменты для очистки (то есть BeautifulSoup или Scrapy), которые сделают вашу жизнь намного НАМНОГО проще, чем с помощью php.

0 голосов
/ 29 июня 2018

Вы можете использовать вызов функции php

file_get_contents («здесь идет веб-URL»);

пример file_get_contents ('http://www.google.com');

Эта функция будет получать html, возвращаемый из URL, затем вы можете использовать xpath для извлечения элемента html, чтобы получить нужные вам данные.

Ниже приведен пример и более подробное объяснение.

https://gist.github.com/anchetaWern/6150297

Лично я сделал что-то похожее на ваш вопрос, но это в ruby ​​on rails, вы можете изучить проект здесь.

https://github.com/dvarun/gextract

xpath, который я использовал здесь: https://github.com/dvarun/gextract/blob/master/app/jobs/fetch_keyword_job.rb

...