Система БД для приложений на гусеничном ходу - PullRequest
1 голос
/ 05 января 2012

Я работаю на Java-гусеничном шасси.Я хочу иметь функцию возобновления в моем сканере, где пользователь может приостановить сканирование в любой момент, когда захочет, и в случае сбоя какого-либо сканера он сможет запустить предыдущее сканирование с того места, где остановился сканер.

Для этого мне нужно хранить все исходящие ссылки (ссылки, найденные на любой странице) в базе данных.Я не уверен, какая база данных лучше всего подходит для такого рода систем, так как она требует очень быстрой вставки и извлечения ссылок из базы данных, а частота вставки и извлечения была бы очень высокой.

Мало кто предложил мне no-sql какmongodb, но я просто хочу убедиться, что это лучший выбор для подобных систем.

1 Ответ

2 голосов
/ 05 января 2012

crawler4j - это сканер java, который также поддерживает функцию возобновления.Итак, если вы просто хотите иметь сканер, я предлагаю его использовать.Но если вам нужно интегрировать эту функциональность в ваш собственный сканер, я предлагаю Berkeley DB.Это очень эффективное хранилище на основе значений ключей.Вы можете проверить исходные коды crawler4j, чтобы увидеть, как он использует Berkeley DB для очень быстрого хранения и поиска URL-адресов, которые необходимо сканировать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...