Проблема веб-сканера в PHP - PullRequest
       2

Проблема веб-сканера в PHP

0 голосов
/ 22 октября 2018

Это приложение будет действовать в качестве поисковой системы для извлечения информации, связанной с преподавателями, из различных (не менее 200) академических институтов, включая университеты, колледжи и другие учебные заведения.Это включает в себя название факультета, высшую квалификацию, область знаний, тип опыта (преподавание, исследования, коучинг и т. Д.), Опыт (в годах) и принадлежность (и) и их хранение в базе данных.

Мне нужно получить данные с 200 веб-сайтов, что означает, что у каждого веб-сайта есть свои собственные теги и другие элементы. Регулярное выражение для каждого веб-сайта не будет одинаковым, как я могу это сделать, кто-нибудь может помочь?

1 Ответ

0 голосов
/ 22 октября 2018

Вам понадобится браузер без головы для сканирования в Интернете.Я рекомендую этот инструмент https://github.com/facebook/php-webdriver.

Чтобы сканировать множество веб-сайтов, вам потребуется внедрить много разных сканеров, по одному для каждого веб-сайта, если у каждого есть своя HTML-структура.

С уважением.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...