В последнее время я работаю с большими наборами данных (более 400 тысяч строк).До сих пор я использовал формат XTS, который отлично работал для «маленьких» наборов данных из нескольких десятых тысяч элементов.
Теперь, когда проект растет, R просто падает при получении данных для базы данных и установкеэто в XTS.
Насколько я понимаю, R должен иметь векторы с размером до 2 ^ 32-1 элементов (или 2 ^ 64-1 в зависимости от версии).Следовательно, я пришел к выводу, что XTS может иметь некоторые ограничения, но я не смог найти ответ в документе.(возможно, я был немного уверен в своем понимании теоретического возможного размера вектора).
Подводя итог, я хотел бы знать, если:
- XTS действительно имеет ограничение размера
- Какой, на ваш взгляд, самый умный способ обработки больших временных рядов?(Я думал о том, чтобы разбить анализ на несколько меньших наборов данных.)
- Я не получаю сообщение об ошибке, R просто выключается автоматически.Это известное поведение?
РЕШЕНИЕ
- То же, что и R, и зависит от типа используемой памяти (64 бита, 32 бита)).В любом случае он очень велик.
- Данные о фрагментации действительно хорошая идея, но она не нужна.
- Эта проблема возникла из-за ошибки в R 2.11.0, котораябыло решено в R 2.11.1 .Возникла проблема с вектором длинных дат (здесь индексы XTS).