Как хранить сканированные данные с веб-страниц - PullRequest
1 голос
/ 07 мая 2011

Я хочу создать образовательную поисковую систему в своем веб-приложении, поэтому я решил отсканировать около 10 веб-сайтов, используя PHP, с моей веб-страницы и сохранить данные в моей базе данных для последующего поиска.Как мне получить эти данные и сохранить их в моей базе данных?

Ответы [ 2 ]

0 голосов
/ 07 мая 2011

Создание сканера Я бы составил список URL-адресов, чтобы получить и, наконец, получить их

A.Составьте список

  1. Определите список URL для сканирования
  2. Добавьте этот URL в список URL для сканирования (список заданий)
  3. Определитемаксимальная глубина
  4. Разобрать первую страницу, получить все, найти ссылку, получить ссылку.
  5. Для каждой ссылки: если она из того же домена или родственника, добавьте ее в список вакансий.
  6. Удалить текущий URL из списка заданий,
  7. Перезапустить из списка заданий следующего URL, если он не пустой.

Для этого вы можете использовать этот класс, который делаетпарсинг html действительно прост: http://simplehtmldom.sourceforge.net/

B.Получить содержимое

Цикл созданного массива и получение содержимого.file_get_contents сделает это за вас: http://www.php.net/manual/fr/function.file-get-contents.php

Это просто в принципе верно для начала, на шаге A вы должны сохранить список уже проанализированных URL, чтобы проверить их только один.Строка запроса также может быть чем-то, за чем вы будете следить, чтобы избежать сканирования нескольких страниц с другой строкой запроса.

0 голосов
/ 07 мая 2011

Вы можете получить их с помощью функции file_get_contents(). Таким образом, у вас есть

$homepage = file_get_contents('http://www.example.com/homepage');

Эта функция возвращает страницу в строку.

Надеюсь, это поможет. Приветствия

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...