Question

Я строю небольшой гусеничный ход как хобби. Все, что я хочу сделать, это просканировать около миллиона страниц и сохранить их в базе данных. (да, оно будет обновляться время от времени, но записи в любой конкретный момент времени будут составлять только 1 миллион) Просто чтобы узнать, как эти вещи работают.

Я хочу закодировать его в PHP / MySQL. Я не хочу каких-либо возможностей поиска, поскольку у меня нет серверных ресурсов для этого. Все, что я хочу, - я должен иметь возможность самостоятельно выполнять несколько запросов SQL к базе данных.

В базе данных я не буду хранить какой-либо текст страницы (который я хочу хранить в отдельных текстовых файлах - я не знаю, будет ли это осуществимо). Будут сохранены только заголовок, ссылка и некоторая другая информация. Таким образом, в основном, если я запускаю запрос, и он дает мне некоторые результаты, я могу извлечь текстовые данные из этих файлов.

Хотелось бы знать, будет ли этот проект осуществим в следующих условиях.

Я буду покупать VPS у Linode (512 МБ ОЗУ) (я не могу выбрать выделенный сервер, и общие хосты не позволяют мне это делать).

Мой вопрос: Сможет ли она поддерживать эту большую базу данных (1 миллион строк) с возможностью запуска запросов в пакетном режиме при необходимости.

Любые предложения приветствуются. Любой другой вариант хостинга также будет оценен.

Pablo Hoffman · Answer 1 · 13 апреля 2011

Вы также можете попробовать Scrapy .Это быстро и отлично работает на сервере Linode 512M, но написано на Python.

Kris · Answer 2 · 13 апреля 2011

Создание веб-сканера с нуля является значительным мероприятием, по крайней мере, если вы хотите сканировать миллионы страниц.Я знаю это по личному опыту веб-сканера Heritrix .

Вы можете прочитать главу " Обзор сканера " из руководства разработчика Heritrix.Эта глава посвящена высокоуровневому дизайну и должна помочь вам разобраться с основными компонентами сканера.

Просто переведите это в состояние сканирования и обработки.Состояние сканирования - это URL-адреса, которые вы просматривали, URL-адреса, которые вы просматривали и т. Д. Хотя обработка охватывает выборку URL-адреса и последующую обработку для извлечения ссылок, сохранения загруженных данных и т. Д. Несколько потоков обработки обычно работают параллельно.

Будет ли сканер работать на этой конфигурации сервера?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Будет ли сканер работать на этой конфигурации сервера?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы