Как вы импортируете публичные наборы больших данных в AWS? - PullRequest
3 голосов
/ 24 января 2012

Загрузка любого из общедоступных наборов данных Amazon (http://aws.amazon.com/datasets) потребует много ресурсов и пропускной способности. Какой лучший способ импортировать их в AWS, чтобы вы начали работать с ними быстро?

Ответы [ 2 ]

5 голосов
/ 24 января 2012

Вам потребуется создать новый экземпляр EBS, используя Snapshot-ID для общедоступного набора данных.Таким образом, вам не нужно будет платить за перевод.

Но будьте осторожны, некоторые наборы данных доступны только в одном регионе, что, скорее всего, обозначено примечанием, похожим на это.Затем вы должны зарегистрировать свой экземпляр EC2 в том же регионе.

Эти наборы данных размещены в регионе us-east-1.Если вы обрабатываете их из других регионов, с вас будет взиматься плата за передачу данных.

1 голос
/ 27 января 2012

К сведению: SDBExplorer использует многопоточные атрибуты BatchPutAttributes для достижения высокой производительности записи при загрузке объемных данных в Amazon SimpleDB. SDB Explorer позволяет несколько параллельных загрузок. Если у вас есть пропускная способность, вы можете в полной мере воспользоваться этой пропускной способностью, запустив одновременно несколько процессов BatchPutAttributes в параллельной очереди, что сократит время, затрачиваемое на обработку. SDBExplorer поддерживает импорт данных из MySql и CSV в Amazon SimpleDB.

http://www.sdbexplorer.com

Раскрытие информации: я разработчик SDBExplorer.

...