Я работаю с большими наборами данных (10 миллионов записей, иногда 100 миллионов) и хочу использовать программу базы данных, которая хорошо связывается с R. Я пытаюсь сделать выбор между mysql и sqlite. Данные статические, но мне нужно выполнить много запросов.
В этой ссылке на справку sqlite указано, что:
"При размере страницы по умолчанию 1024 байта размер базы данных SQLite ограничен 2 терабайтами (241 байт). И даже если он может обрабатывать большие базы данных, SQLite сохраняет всю базу данных в одном файле на диске и во многих файловых системах. ограничьте максимальный размер файлов чем-то меньшим, чем этот. Поэтому, если вы рассматриваете базы данных такого масштаба, вам было бы неплохо рассмотреть возможность использования механизма клиент-серверной базы данных, который распределяет свое содержимое по нескольким дисковым файлам и, возможно, по нескольким томам. «
Я не уверен, что это значит. Когда я экспериментировал с mysql и sqlite, кажется, что mysql работает быстрее, но я не построил очень строгие тесты скорости. Мне интересно, является ли mysql лучшим выбором для меня, чем sqlite, из-за размера моего набора данных. Приведенное выше описание, по-видимому, указывает на то, что это может иметь место, но мои данные находятся далеко не около 2 ТБ.
Была дискуссия по stackoverflow , которая затрагивала эту тему и ссылалась на ту же информационную страницу sqlite, но она не совсем ответила на этот вопрос.
Буду признателен за понимание этого ограничения максимального размера файла в файловой системе и того, как это может повлиять на скорость индексации таблиц и выполнения запросов. Это может действительно помочь мне в принятии решения о том, какую базу данных использовать для моего анализа.