Каков разумный размер для массива? - PullRequest
0 голосов
/ 11 апреля 2020

Каков разумный размер для массива? У меня есть набор данных со 100K строк в год, и в идеале я хочу иметь возможность обрабатывать несколько лет за один go. Каждая строка содержит 20 столбцов данных о продажах: имена событий, имена файлов, даты, суммы, ссылочные номера, другие номера, идентификаторы клиентов и демографические данные c. Так много строк, текст, который не всегда соответствует сетке Excel по умолчанию. Моя текущая модель обрабатывает 3300 строк в секунду, и это нормально. Но в основном меня беспокоит структура кода.

Данные поступают из нескольких файлов, каждый из которых содержит определенные метрики, используемые в качестве входных данных для изменений. Прямо сейчас я обрабатываю этот набор данных в блоках по 30 000 строк слева направо. Каждый столбец загружается в массив, вносятся изменения, вывод назначается на новый лист. Следующий столбец и т. Д. c.

Моя первая проблема была в том, что если я загрузлю 100К строк в массив, это может вызвать проблемы. Поэтому я подумал, что разделение на основе исходного кода будет безопасным вариантом для работы с меньшими размерами. Но тестирование со 100К строк (столбец за столбцом) было одинаково быстрым, без видимой разницы. Теперь мне интересно, могу ли я просто загрузить весь массив (30 000 строк - 20 столбцов) в массив, выполнить мои вычисления и затем вывести их сразу? Какой разумный размер? А когда у тебя будут проблемы?

...