ArXiv репликация мозгового штурма - PullRequest
0 голосов
/ 30 июля 2009

В архиве электронной печати arXiv есть несколько терабайт статей из разных областей науки. Некоторые пользователи хотели бы хранить полную копию этих данных на своих компьютерах, в то время как другие просто хотят загрузить самые последние статьи в определенной категории. Они стремятся уменьшить нагрузку на полосу пропускания, используя какую-то систему распределенной загрузки (например, BitTorrent). Я ищу идеи для программы или набора программ, которые бы охватили все это.

Ответы [ 3 ]

1 голос
/ 30 июля 2009

arXiv рекомендует squid в режиме httpd ускорителя именно для этой цели. Любая конкретная причина, почему это не достаточно хорошо?

1 голос
/ 23 августа 2010

Полный PDF-контент находится в облаке Amazon.

при наличии> 600 тыс. Документов на arXiv, общий размер PDF <1/2 ТБ </p>

http://arxiv.org/help/bulk_data_s3

Т.

0 голосов
/ 30 июля 2009

Моя первая идея заключается в том, что это выглядит очень похоже на группы новостей Usenet, с бесконечным постоянством сообщений на серверах. Я не знаю, насколько хорошо это работает с PDF-файлами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...