GAE: запланированный импорт большого gzip-файла со стороннего сайта - PullRequest
0 голосов
/ 06 марта 2011

Я работаю над веб-приложением Python, которому необходимо регулярно импортировать большие (с точки зрения ограничений GAE) сжатые файлы со стороннего сайта.Подумайте об экспорте в rdf. Проект DMOZ производится с регулярными интервалами.

Это означает ежедневную выборку gzip-файла объемом 500 МБ, распаковку, анализ, обработку и сохранение результатов в хранилище данных GAE для последующего использования.

Как правильно реализовать эту функцию в GAE, учитывая ограничения на максимальную загрузку, время обработки и т. Д.?

Ответы [ 2 ]

1 голос
/ 08 марта 2011

Ограничение на размер загружаемого файла в App Engine в настоящее время составляет 64 МБ. В результате у вас есть два варианта:

  • Используйте заголовки HTTP Range для загрузки и обработки файла кусками.
  • Используйте внешнюю службу для загрузки, разбейте ее на части и отправьте части в приложение App Engine.
0 голосов
/ 06 марта 2011

Моя первоначальная инстинктивная реакция (не зная, что находится внутри gzip-файла), состоит в том, чтобы выполнить обработку где-то еще (AWS?), А затем передать обработанные данные в ваше приложение GAE маленькими битами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...