Подготовка данных и описание с большими наборами данных в Datalab - PullRequest
0 голосов
/ 27 июня 2018

В настоящее время я работаю с CSV-файлом объемом 6 ГБ, чтобы извлечь некоторые данные из данных в облачной платформе Google. Я использую эту работу с Cloud Datalab, потому что считаю, что это хороший инструмент для визуализации данных. Проблема возникает, когда я пытаюсь загрузить всю информацию в фрейм данных. Поскольку я запускаю Datalab в виртуальной машине, я предполагаю, что производительность зависит от мощности этой виртуальной машины. В настоящее время я получаю таймаут каждый раз, когда пытаюсь загрузить регистры в кадре данных (даже при попытке использовать виртуальную машину с 4 ЦП и 15 ГБ ОЗУ). Существует ли какая-либо стандартная процедура для очистки и визуализации данных (если возможно, с использованием фреймов данных) с большими наборами данных в GCP? Может быть, я просто выбираю неправильный вариант.

Любая помощь будет высоко ценится.

1 Ответ

0 голосов
/ 23 июля 2018

В качестве обновления я нашел способ загрузить файл csv в кадр данных с другой библиотекой, а не с пандами (под названием «Dask»: [link] (dask.pydata.org/en/latest)). На самом деле, я смог быстро выполнить некоторые основные операции. В любом случае, я думаю, что решение для работы с очень большими файлами состоит в том, чтобы использовать примерные данные, которые достаточно репрезентативны.

...