Я не пользователь R, но я немного знаю о базах данных. Я полагаю, что MySQL (или любая другая RDBMS с хорошей репутацией) на самом деле будет выполнять ваши операции с подмножествами быстрее (на порядок, как правило, обычно), исключая любые дополнительные вычисления, вовлеченные в процесс поднабора.
Я подозреваю, что ваша задержка в производительности на небольших наборах данных связана с затратами на соединение и первоначальным переносом данных в MySQL. Вероятно, в какой-то момент накладные расходы на соединение и время передачи данных увеличат стоимость вашей работы, чем сэкономит MySQL.
Однако для наборов данных, превышающих определенный минимум, похоже, что эта стоимость компенсируется высокой скоростью базы данных.
Насколько я понимаю, SQL может выполнять большинство операций извлечения и сортировки намного, гораздо быстрее, чем итеративные операции в коде. Но необходимо учитывать стоимость соединения и (в данном случае) первоначальную передачу данных по сетевому проводу.
Мне будет интересно услышать, что говорят другие. , ,