Ускорить вставку базы данных из ORM - PullRequest
2 голосов
/ 09 сентября 2009

У меня есть представление Django, которое создает 500-5000 новых INSERTS базы данных в цикле. Проблема в том, что это действительно медленно! Я получаю около 100 вставок в минуту на Postgres 8.3. Мы использовали MySQL на меньшем оборудовании (меньшем экземпляре EC2) и никогда не сталкивались с такими проблемами со скоростью.

Подробнее: Postgres 8.3 на Ubuntu Server 9.04. Сервер представляет собой «большой» Amazon EC2 с базой данных на EBS (ext3) - 11 ГБ / 20 ГБ.

Вот некоторые из моих postgresql.conf - дайте мне знать, если вам нужно больше

shared_buffers = 4000MB
effective_cache_size = 7128MB

Мой питон:

for k in kw:
        k = k.lower()
        p = ProfileKeyword(profile=self)
        logging.debug(k)
        p.keyword, created = Keyword.objects.get_or_create(keyword=k, defaults={'keyword':k,})
        if not created and ProfileKeyword.objects.filter(profile=self, keyword=p.keyword).count():
            #checking created is just a small optimization to save some database hits on new keywords
            pass #duplicate entry
        else:
            p.save()

Некоторый вывод сверху:

top - 16:56:22 up 21 days, 20:55,  4 users,  load average: 0.99, 1.01, 0.94
Tasks:  68 total,   1 running,  67 sleeping,   0 stopped,   0 zombie
Cpu(s):  5.8%us,  0.2%sy,  0.0%ni, 90.5%id,  0.7%wa,  0.0%hi,  0.0%si,  2.8%st
Mem:  15736360k total, 12527788k used,  3208572k free,   332188k buffers
Swap:        0k total,        0k used,        0k free, 11322048k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                            
14767 postgres  25   0 4164m 117m 114m S   22  0.8   2:52.00 postgres                                                                                                                                            
    1 root      20   0  4024  700  592 S    0  0.0   0:01.09 init                                                                                                                                                
    2 root      RT   0     0    0    0 S    0  0.0   0:11.76 migration/0                                                                                                                                         
    3 root      34  19     0    0    0 S    0  0.0   0:00.00 ksoftirqd/0                                                                                                                                         
    4 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/0                                                                                                                                          
    5 root      10  -5     0    0    0 S    0  0.0   0:00.08 events/0                                                                                                                                            
    6 root      11  -5     0    0    0 S    0  0.0   0:00.00 khelper                                                                                                                                             
    7 root      10  -5     0    0    0 S    0  0.0   0:00.00 kthread                                                                                                                                             
    9 root      10  -5     0    0    0 S    0  0.0   0:00.00 xenwatch                                                                                                                                            
   10 root      10  -5     0    0    0 S    0  0.0   0:00.00 xenbus                                                                                                                                              
   18 root      RT  -5     0    0    0 S    0  0.0   0:11.84 migration/1                                                                                                                                         
   19 root      34  19     0    0    0 S    0  0.0   0:00.01 ksoftirqd/1 

Дайте мне знать, будут ли полезны какие-либо другие детали.

Ответы [ 2 ]

6 голосов
/ 09 сентября 2009

Одной из распространенных причин медленных массовых операций, подобных этой, является каждая вставка, происходящая в своей собственной транзакции. Если вы сможете добиться того, чтобы все они происходили за одну транзакцию, она могла бы пройти намного быстрее.

3 голосов
/ 09 сентября 2009

Во-первых, операции ORM всегда будут выполняться медленнее, чем чистый SQL. Однажды я написал обновление для большой базы данных в коде ORM и запустил его, но прекратил его через несколько часов, когда оно завершилось лишь крошечной долей. После переписывания на SQL все это заняло меньше минуты.

Во-вторых, имейте в виду, что ваш код выполняет до четырех отдельных операций с базой данных для каждой строки в вашем наборе данных - get в get_or_create, возможно, также create, count на фильтре, и наконец save. Это большой доступ к базе данных.

Принимая во внимание, что максимум 5000 объектов невелики, вы должны быть в состоянии прочитать весь набор данных в память с самого начала. Затем вы можете сделать один filter, чтобы получить все существующие объекты Ключевого слова за один раз, сохранив огромное количество запросов в Ключевом слове get_or_create, а также избежав необходимости создавать дубликаты ProfileKeywords в первую очередь.

...