Я планирую создать сайт, на котором сервер будет периодически сканировать другой сайт, чтобы собирать контент для определенных записей в моей базе данных. Мои квесты следующие:
- Как заставить сервер своевременно выполнять сканирование?
- Можете ли вы заставить его выполнять php или какой язык вы используете для сканирования?
- Есть ли хорошие API для этого?
- Должен ли я подумать о создании собственного? Если так, то несколько советов о том, как начать, будут великолепны
Обычно я хочу, чтобы сервер выполнял скрипт (скажем, каждый час), который находит все записи в базе данных, которые еще не были просканированы на другом сайте. Он примет определенное значение из этих записей и будет использовать их для сканирования другого сайта ... он может запросить URL-адрес, подобный следующему: www.anothersite.com/images?q=entryindb
.
Что я хочу сделать, так это просканировать HTML, вернуть массив и записать значения в базу данных. Это то, что я хочу, чтобы сканер искал
Find all instances of
<img> inside <a> inside <td> inside <tr> inside <tbody> inside <table> inside <div id='content'>
Return array of the img.src from all instances.
Возможно ли что-то подобное? - Если так, как бы я это сделал? - Пожалуйста, имейте в виду, что веб-разработчик, единственный опыт, который у меня есть (на стороне сервера), это PHP.
ОБНОВЛЕНИЕ : я буду использовать сервер на основе linux, так что я предполагаю, что мне следует делать с помощью сценариев chron?