Разбить файл набора данных на части определенного размера - PullRequest
1 голос
/ 09 июля 2019

Я хочу проанализировать этот набор данных в системе, которая ограничивает импорт до 100 МБ за раз.

Каков наилучший способ разбить (по строкам) набор данных на части размером до 100 МБ?

1 Ответ

1 голос
/ 16 июля 2019

Проблема решена в R.

  1. Прочитать набор данных.
  2. Разделить набор данных на 14 кусков (в 13 кусках у меня был файл размером более 100 МБ).
  3. Затем я сохранил результат обратно как CSV, используя purrr

Здесь идет сценарий:

trade = read.csv("commodity_trade_statistics_data.csv")

no_of_chunks <- 14

f <- ceiling(1:nrow(trade) / nrow(trade) * 14)

res <- split(trade, f)

library(purrr)
map2(res, paste0("chunk_", names(res), ".csv"), write.csv)
...