IO Write ошибки для достаточно больших файлов - PullRequest
0 голосов
/ 09 ноября 2018

Я работаю над экземпляром EC2 с 500 ГБ ОЗУ, диском на 500 ГБ, используемым в качестве кэша, и смонтированными блоками S3 через s3fs. Я пытаюсь объединить множество больших (~ 130 ГБ) CSV-файлов в один файл в смонтированном ведре. Независимо от того, какое решение я пробовал (C, C ++, R, bash) после того, как размер объединенного файла достигает ~ 100 ГБ (кэш все еще не заполнен), я получаю вариант «Ошибка записи: операция не поддерживается», которая обычно происходит после того, как 2 или 3 меньших файла объединяются. Я исчерпал свои ноу-хау и не уверен, что делать с этими объединениями файлов.

Пример кода (R):

library(data.table)

file1 <- fread('file1.csv', header = True, sep = ',')
fwrite(file1, 'merged.csv', append = True)
so on and so forth ...

Bash:

cat *.csv >> ../merged.csv
...