Будет ли сканер работать на этой конфигурации сервера? - PullRequest
0 голосов
/ 13 апреля 2011

Я строю небольшой гусеничный ход как хобби. Все, что я хочу сделать, это просканировать около миллиона страниц и сохранить их в базе данных. (да, оно будет обновляться время от времени, но записи в любой конкретный момент времени будут составлять только 1 миллион) Просто чтобы узнать, как эти вещи работают.

Я хочу закодировать его в PHP / MySQL. Я не хочу каких-либо возможностей поиска, поскольку у меня нет серверных ресурсов для этого. Все, что я хочу, - я должен иметь возможность самостоятельно выполнять несколько запросов SQL к базе данных.

В базе данных я не буду хранить какой-либо текст страницы (который я хочу хранить в отдельных текстовых файлах - я не знаю, будет ли это осуществимо). Будут сохранены только заголовок, ссылка и некоторая другая информация. Таким образом, в основном, если я запускаю запрос, и он дает мне некоторые результаты, я могу извлечь текстовые данные из этих файлов.

Хотелось бы знать, будет ли этот проект осуществим в следующих условиях.

Я буду покупать VPS у Linode (512 МБ ОЗУ) (я не могу выбрать выделенный сервер, и общие хосты не позволяют мне это делать).

Мой вопрос: Сможет ли она поддерживать эту большую базу данных (1 миллион строк) с возможностью запуска запросов в пакетном режиме при необходимости.

Любые предложения приветствуются. Любой другой вариант хостинга также будет оценен.

Ответы [ 2 ]

0 голосов
/ 13 апреля 2011

Вы также можете попробовать Scrapy .Это быстро и отлично работает на сервере Linode 512M, но написано на Python.

0 голосов
/ 13 апреля 2011

Создание веб-сканера с нуля является значительным мероприятием, по крайней мере, если вы хотите сканировать миллионы страниц.Я знаю это по личному опыту веб-сканера Heritrix .

Вы можете прочитать главу " Обзор сканера " из руководства разработчика Heritrix.Эта глава посвящена высокоуровневому дизайну и должна помочь вам разобраться с основными компонентами сканера.

Просто переведите это в состояние сканирования и обработки.Состояние сканирования - это URL-адреса, которые вы просматривали, URL-адреса, которые вы просматривали и т. Д. Хотя обработка охватывает выборку URL-адреса и последующую обработку для извлечения ссылок, сохранения загруженных данных и т. Д. Несколько потоков обработки обычно работают параллельно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...