Какое хранилище данных следует использовать для хранения временных данных от сканеров? - PullRequest
3 голосов
/ 12 июля 2011

Мой сканер сканирует все веб-сайты и получает от них информацию метаданных.Затем я запущу скрипт для очистки URL-адресов и сохранения их в Amazon RDS.

Моя проблема в том, какое хранилище данных я должен использовать для хранения данных в целях очистки (удаление нежелательных URL-адресов).Я не хочу, чтобы сканер ударил Amazon RDS, что замедлило бы его.

Должен ли я использовать Amazon SimpleDB?Затем я могу прочитать из SimpleDB, очистить URL-адрес и переместить его в Amazon RDS.

1 Ответ

1 голос
/ 12 июля 2011

Вы всегда можете использовать БД, но проблема с доступом к диску. Каждый раз, когда вы выполняете доступ к диску, чтобы прочитать несколько URL-адресов, очистите их и снова запишите их в другую базу данных, которая является другим доступом к диску. Этот процесс в порядке, если вы не беспокоитесь о производительности.

Одним из решений является то, что вы можете использовать любую структуру данных так же просто, как список, хранить группу или URL-адреса, иметь поток, который просыпается, когда список достигает порогового значения, очищает URL-адреса, а затем вы можете записать эти URL-адреса в Amazon RDS. .

...