В настоящее время я работаю с CSV-файлом объемом 6 ГБ, чтобы извлечь некоторые данные из данных в облачной платформе Google. Я использую эту работу с Cloud Datalab, потому что считаю, что это хороший инструмент для визуализации данных. Проблема возникает, когда я пытаюсь загрузить всю информацию в фрейм данных. Поскольку я запускаю Datalab в виртуальной машине, я предполагаю, что производительность зависит от мощности этой виртуальной машины. В настоящее время я получаю таймаут каждый раз, когда пытаюсь загрузить регистры в кадре данных (даже при попытке использовать виртуальную машину с 4 ЦП и 15 ГБ ОЗУ).
Существует ли какая-либо стандартная процедура для очистки и визуализации данных (если возможно, с использованием фреймов данных) с большими наборами данных в GCP? Может быть, я просто выбираю неправильный вариант.
Любая помощь будет высоко ценится.