Насколько столбец dtype влияет на производительность to_csv ()? - PullRequest
0 голосов
/ 30 октября 2019

У меня есть фрейм данных с ~ 11,4 миллионами строк и 140 столбцами. При попытке вывести в сжатый gzip CSV (он должен быть CSV, по крайней мере, на данный момент), я получаю безумно медленную скорость записи на диск, примерно 50 кбит / с. Запись этого конкретного кадра данных на диск заняла 7 часов 5 минут, что недопустимо в будущем. Могут ли типы столбцов вызвать такое замедление? Может быть, мой жесткий диск просто выходит из строя? Я склонен полагать, что это узкое место ввода-вывода, и поэтому состав моего информационного кадра не имеет большого значения, верно?

Я записал другие подобные наборы данных на диск (те же столбцы,другой период времени для образцов), и это было не так быстро, как хотелось бы, но не медленные скорости, которые я вижу с моими последними данными.

Dtypes, если это имеет значение, это:

In [5]: Counter(df.dtypes.tolist()).most_common()
Out[5]: [(dtype('float64'), 90), (dtype('O'), 42), (dtype('int64'), 8)]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...