Я использую загрузчик App Engine Bulk (Python Runtime) для массовой загрузки объектов в хранилище данных. Данные, которые я загружаю, хранятся в собственном формате, поэтому я реализовал собственный соединитель (зарегистрировал его в bulkload_config.py
), чтобы преобразовать его в промежуточный словарь Python.
import google.appengine.ext.bulkload import connector_interface
class MyCustomConnector(connector_interface.ConnectorInterface):
....
#Overridden method
def generate_import_record(self, filename, bulkload_state=None):
....
yeild my_custom_dict
Чтобы преобразовать этот нейтральный словарь Python в сущность хранилища данных, я использую пользовательскую функцию пост-импорта, определенную в моем YAML.
def feature_post_import(input_dict, entity_instance, bulkload_state):
....
return [all_entities_to_put]
Примечание: я не использую entity_instance, bulkload_state
в моей функции feature_post_import
. Я просто создаю новые сущности хранилища данных (на основе моего input_dict
) и возвращаю их.
Теперь все отлично работает. Однако процесс массовой загрузки данных занимает слишком много времени. Например, ГБ (~ 1 000 000 объектов) данных занимает ~ 20 часов. Как я могу улучшить производительность процесса массовой загрузки. Я что-то упустил?
Некоторые из параметров, которые я использую с appcfg.py: (10 потоков с размером пакета 10 объектов на поток).
Связано с сообщением группы Python в Google App Engine: http://groups.google.com/group/google-appengine-python/browse_thread/thread/4c8def071a86c840
Обновление:
Чтобы проверить производительность процесса Bulk Load, я загрузил entities
'Test' Kind
. Несмотря на то, что у этого entity
очень простой FloatProperty
, мне все равно потребовалось столько же времени для массовой загрузки этих entities
.
Я все еще собираюсь попытаться изменить параметры массового загрузчика, rps_limit
, bandwidth_limit
и http_limit
, чтобы посмотреть, смогу ли я увеличить пропускную способность.