Предположим, у меня есть огромный SQLite
файл (скажем, 500 [МБ]), хранящийся в Amazon S3
.
Может ли сценарий python
, запущенный на небольшом экземпляре EC2
, получить прямой доступ и изменить этот SQLite
файл? или я должен сначала скопировать файл в экземпляр EC2
, изменить его там, а затем скопировать в S3
?
Будет ли эффективен ввод / вывод?
Вот что я пытаюсь сделать. Как я уже писал, у меня есть файл размером 500 [МБ] SQLite
в S3
. Я хотел бы начать с 10 different Amazon EC2 instances
, каждый из которых будет читать подмножество файла и выполнять некоторую обработку (каждый экземпляр будет обрабатывать свое подмножество файла 500 [МБ] SQLite
). Затем, когда обработка будет завершена, каждый экземпляр будет обновлять только подмножество данных, с которыми он имел дело (как было объяснено, не будет перекрытия данных среди процессов).
Например, предположим, что в файле SQLite
написано 1M строк :
instance 1
будет обрабатывать (и обновлять) строки 0 - 100000
instance 2
будет обрабатывать (и обновлять) строки 100001 - 200000
.........................
instance 10
будет обрабатывать (и обновлять) строки 900001 - 1000000
Это вообще возможно? Звучит нормально? любые предложения / идеи приветствуются.