Question

Почему: memory: в sqlite так медленно?

Я пытался выяснить, есть ли какие-либо улучшения производительности, полученные с использованием sqlite в памяти по сравнению с sqlite на основе диска. По сути, я хотел бы обменять время запуска и память, чтобы получать чрезвычайно быстрые запросы, которые не обращаются к диску во время работы приложения.

Тем не менее, следующий тест дает мне в 1,5 раза больше скорости. Здесь я генерирую 1M строк случайных данных и загружаю их в одну и ту же таблицу на основе диска и памяти. Затем я запускаю случайные запросы на обоих БД, возвращая наборы размером около 300 КБ. Я ожидал, что основанная на памяти версия будет значительно быстрее, но, как уже упоминалось, я получаю только 1,5-кратное ускорение.

Я экспериментировал с несколькими другими размерами БД и наборов запросов; преимущество: memory: делает , кажется, увеличивается с увеличением числа строк в БД. Я не уверен, почему преимущество так мало, хотя у меня было несколько гипотез:

используемая таблица недостаточно велика (в строках): memory: огромный победитель
больше объединений / таблиц сделало бы: memory: преимущество более очевидным
на уровне соединения или ОС происходит какое-то кэширование, так что предыдущие результаты каким-то образом доступны, что повредит тесту
происходит какой-то скрытый доступ к диску, которого я не вижу (я еще не пробовал lsof, но я отключил PRAGMA для ведения журнала)

Я что-то здесь не так делаю? Любые мысли о том, почему: память: не производит почти мгновенные поиски? Вот эталон:

==> sqlite_memory_vs_disk_benchmark.py <==

#!/usr/bin/env python
"""Attempt to see whether :memory: offers significant performance benefits.

"""
import os
import time
import sqlite3
import numpy as np

def load_mat(conn,mat):
    c = conn.cursor()

    #Try to avoid hitting disk, trading safety for speed.
    #http://stackoverflow.com/questions/304393
    c.execute('PRAGMA temp_store=MEMORY;')
    c.execute('PRAGMA journal_mode=MEMORY;')

    # Make a demo table
    c.execute('create table if not exists demo (id1 int, id2 int, val real);')
    c.execute('create index id1_index on demo (id1);')
    c.execute('create index id2_index on demo (id2);')
    for row in mat:
        c.execute('insert into demo values(?,?,?);', (row[0],row[1],row[2]))
    conn.commit()

def querytime(conn,query):
    start = time.time()
    foo = conn.execute(query).fetchall()
    diff = time.time() - start
    return diff

#1) Build some fake data with 3 columns: int, int, float
nn   = 1000000 #numrows
cmax = 700    #num uniques in 1st col
gmax = 5000   #num uniques in 2nd col

mat = np.zeros((nn,3),dtype='object')
mat[:,0] = np.random.randint(0,cmax,nn)
mat[:,1] = np.random.randint(0,gmax,nn)
mat[:,2] = np.random.uniform(0,1,nn)

#2) Load it into both dbs & build indices
try: os.unlink('foo.sqlite')
except OSError: pass

conn_mem = sqlite3.connect(":memory:")
conn_disk = sqlite3.connect('foo.sqlite')
load_mat(conn_mem,mat)
load_mat(conn_disk,mat)
del mat

#3) Execute a series of random queries and see how long it takes each of these
numqs = 10
numqrows = 300000 #max number of ids of each kind
results = np.zeros((numqs,3))
for qq in range(numqs):
    qsize = np.random.randint(1,numqrows,1)
    id1a = np.sort(np.random.permutation(np.arange(cmax))[0:qsize]) #ensure uniqueness of ids queried
    id2a = np.sort(np.random.permutation(np.arange(gmax))[0:qsize])
    id1s = ','.join([str(xx) for xx in id1a])
    id2s = ','.join([str(xx) for xx in id2a])
    query = 'select * from demo where id1 in (%s) AND id2 in (%s);' % (id1s,id2s)

    results[qq,0] = round(querytime(conn_disk,query),4)
    results[qq,1] = round(querytime(conn_mem,query),4)
    results[qq,2] = int(qsize)

#4) Now look at the results
print "  disk | memory | qsize"
print "-----------------------"
for row in results:
    print "%.4f | %.4f | %d" % (row[0],row[1],row[2])

Вот результаты. Обратите внимание, что диск занимает в 1,5 раза больше памяти, чем достаточно широкий диапазон запросов.

[ramanujan:~]$python -OO sqlite_memory_vs_disk_clean.py
  disk | memory | qsize
-----------------------
9.0332 | 6.8100 | 12630
9.0905 | 6.6953 | 5894
9.0078 | 6.8384 | 17798
9.1179 | 6.7673 | 60850
9.0629 | 6.8355 | 94854
8.9688 | 6.8093 | 17940
9.0785 | 6.6993 | 58003
9.0309 | 6.8257 | 85663
9.1423 | 6.7411 | 66047
9.1814 | 6.9794 | 11345

Разве ОЗУ не должно быть почти мгновенным относительно диска? Что здесь не так?

Редактировать

Несколько хороших предложений здесь.

Полагаю, что основной момент для меня заключается в том, что **, вероятно, нет способа сделать: memory: абсолютно быстрее , но есть способ сделать доступ к диску относительно медленным. **

Другими словами, эталонный тест адекватно измеряет реальную производительность памяти, но не реальную производительность диска (например, потому что прагма cache_size слишком велика или потому что я не делаю записи). Я поэкспериментирую с этими параметрами и опубликую свои выводы, когда у меня будет шанс.

Тем не менее, если есть кто-то, кто думает, что я могу выжать еще немного скорости из БД в памяти (кроме как путем подкачки cache_size и default_cache_size, что я и сделаю), я все уши ...

Thomas Jones-Low · Answer 1 · 19 апреля 2009

Это связано с тем, что SQLite имеет кеш страниц. Согласно документации , кэш страниц по умолчанию составляет 2000 страниц по 1 КБ или около 2 МБ. Поскольку это около 75-90% ваших данных, неудивительно, что эти два числа очень похожи. Я предполагаю, что в дополнение к кешу страниц SQLite, остальные данные все еще находятся в кеше диска ОС. Если у вас есть SQLite для очистки кэша страниц (и дискового кэша), вы увидите некоторые действительно существенные различия.

ddevienne · Answer 2 · 29 июня 2009

Мой вопрос к вам: что вы пытаетесь оценить?

Как уже упоминалось, SQLite: memory: DB - это то же самое, что и дисковая, т.е. постраничная, и единственное отличие состоит в том, что страницы никогда не записываются на диск. Таким образом, единственное различие между ними заключается в записи на диск: в память: не требуется (также не требуется выполнять чтение с диска, когда страница диска должна была быть выгружена из кэша).

Но чтение / запись из кэша может представлять только часть времени обработки запроса, в зависимости от запроса. В вашем запросе есть предложение where с двумя большими наборами идентификаторов, членами которого должны быть выбранные строки, что дорого.

Как Кэри Миллсап демонстрирует в своем блоге об оптимизации Oracle (вот репрезентативный пост: http://carymillsap.blogspot.com/2009/06/profiling-with-my-boy.html),, вам необходимо понять, какие части обработки запроса занимают время. Предполагая, что тесты набора участников составляют 90% времени запроса и дисковый ввод-вывод 10%, то есть: memory: экономит только эти 10%. Это крайний пример, который вряд ли будет репрезентативным, но я надеюсь, что он показывает, что ваш конкретный запрос отклоняет результаты. Используйте более простой запрос, и IO части обработки запросов увеличатся, и, следовательно, выгода: memory:.

В заключение отметим, что мы экспериментировали с виртуальными таблицами SQLite, где вы отвечаете за реальное хранилище, и, используя контейнеры C ++, которые типизированы в отличие от способа хранения значений ячеек в SQLite, мы могли заметить значительное улучшение по истечении времени обработки: memory:, но это немного по теме;) --DD

PS: мне не хватает кармы, чтобы комментировать самый популярный пост этой темы, поэтому я комментирую здесь :), чтобы сказать, что недавняя версия SQLite не использует 1 КБ страницы по умолчанию в Windows: http://www.sqlite.org/changes.html#version_3_6_12

vartec · Answer 3 · 19 апреля 2009

Вы делаете SELECT, вы используете кэш памяти. Попробуйте чередовать SELECT с ОБНОВЛЕНИЯМИ.

Mash · Answer 4 · 26 апреля 2009

База данных памяти в SQLite - это кеш страниц, который никогда не касается диска. Так что вы должны забыть об использовании памяти db в SQLite для настройки производительности

Можно отключить журнал, отключить режим синхронизации, установить большой кэш страниц, и вы будете иметь почти одинаковую производительность в большинстве операций, но долговечность будет потеряна.

Из вашего кода совершенно ясно, что вы ДОЛЖНЫ ПОЛЬЗОВАТЬСЯ командой и параметрами ТОЛЬКО BIND, потому что это отнимает более чем на 90% производительности вашего теста.

jankos · Answer 5 · 02 мая 2012

Спасибо за код. Я проверил 2 x XEON 2690 с 192 ГБ ОЗУ и 4 жесткими дисками SCSI 15k в RAID 5, и результаты:

  disk | memory | qsize
-----------------------
6.3590 | 2.3280 | 15713
6.6250 | 2.3690 | 8914
6.0040 | 2.3260 | 225168
6.0210 | 2.4080 | 132388
6.1400 | 2.4050 | 264038

Значительное увеличение скорости памяти.

1800 INFORMATION · Answer 6 · 19 апреля 2009

Замечу, что вы сосредоточены на запросах, которые требуют относительно больших наборов данных для возврата. Интересно, какой эффект вы бы увидели с меньшими наборами данных? Многократное возвращение одной строки может потребовать от диска многократного поиска - время произвольного доступа к памяти может быть намного быстрее.

Felix · Answer 7 · 19 апреля 2009

Может быть, sqlite3 на самом деле не записывает ваши данные на диск из кеша? что может объяснить, почему цифры похожи.

Также возможно, что ваша ОС выполняет подкачку из-за недостатка памяти?

freegnu · Answer 8 · 21 октября 2011

numpy массивы медленнее, чем dict, tuple и другие последовательности объектов, пока вы не имеете дело с 5 миллионами или более объектами в последовательности. Вы можете значительно повысить скорость обработки огромных объемов данных, перебирая их и используя генераторы, чтобы избежать создания и воссоздания временных больших объектов.

numpy стал вашим ограничивающим фактором, поскольку он предназначен для обеспечения линейной производительности. Это не звезда с небольшими или даже большими объемами данных. Но производительность Numpy не превращается в кривую с ростом набора данных. Это остается прямой линией.

Кроме того, SQLite - это просто очень быстрая база данных. Быстрее, чем большинство серверных баз данных. Возникает вопрос, почему кто-то будет использовать базы данных NOSQL, когда легкая супербыстрая отказоустойчивая база данных, использующая SQL, уже давно и проверена во всем, от браузеров до мобильных телефонов, годами.

Тест производительности SQLite - почему: память: такая медленная ... всего в 1,5 раза быстрее диска?

Почему: memory: в sqlite так медленно?

Редактировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Тест производительности SQLite - почему: память: такая медленная ... всего в 1,5 раза быстрее диска?

Почему: memory: в sqlite так медленно?

Редактировать

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы