Я новичок в базах данных и пытаюсь найти хорошее решение для работы с большими наборами данных. В основном я делаю статистический анализ с использованием R, поэтому мне не нужна база данных в качестве бэкэнда веб-страниц или чего-либо еще. По наборам данных вообще статичны - они просто большие.
Я пытался сделать простое левое соединение таблицы записей ~ 10 000 000 на таблице ~ 1 400 000. Таблица 1.4 м имела уникальные записи. После сбивания в течение 3 часов, оно вышло на меня. Запрос был указан правильно - я запустил его, ограничив количество поисков до 1000 записей, и он вернулся точно так, как я ожидал. В конце концов я нашел способ разделить это на 10 запросов, и он запустился, но к этому времени я смог сделать это слияние в R довольно быстро, без всяких причудливых вызовов sqlite и индексации.
Я искал использование баз данных, потому что думал, что они быстрее / эффективнее справляются с этими основными манипуляциями с данными, но, возможно, я просто что-то упускаю. В приведенном выше примере я проиндексировал соответствующие столбцы, и я удивлен, что sqlite не смог справиться с этим, в то время как R мог.
Извините, если этот вопрос немного туманный (я немного туманно отношусь к базам данных), но если у кого-то есть какие-либо советы по поводу чего-то очевидного, я делаю неправильно, чтобы не воспользоваться преимуществами sqlite, это было бы здорово , Или я просто многого ожидаю, а объединение записей размером 100 х 1,4 м слишком велико, чтобы его можно было выполнить, не разбивая его?
Я думаю, что база данных может превзойти R в этом отношении?
спасибо!
EXL