Я импортировал 14-гигабайтный файл .csv из Google Drive в Google Drive и использовал pandas для его сортировки, а также удалил некоторые столбцы и строки.
После удаления около трети строк и около половины столбцы данных, df_edited file.shape
показывает:
(27219355, 7)
Чтобы сохранить файл, лучший способ, который я смог найти, это:
from google.colab import files
df_edited.to_csv('edited.csv')
files.download('edited.csv')
Когда я запускаю это, по прошествии длительного времени (если он не обработал sh, что происходит примерно 1 из 2 раз), он открывает диалоговое окно для сохранения файла локально.
Затем я говорю "да" для сохранения и разрешения это сохранить. Тем не менее, он уменьшает размер файла CSV в 14 гигабайт, который я, вероятно, разрезал пополам, примерно до 7 гигов, до файла CSV размером около 100 мегабайт.
Когда я открываю файл локально, он запускает Excel, и я вижу только около 358 000 наблюдений вместо того, что должно быть около 27 миллионов. Я знаю, что Excel показывает только ограниченное количество, но тот факт, что размер CSV-файла был сокращен до 100 мегабайт, говорит о том, что в процессе загрузки было потеряно много данных.
Есть ли что-нибудь в коде выше, это может привести к потере всех этих данных?
Или что может быть причиной.
Спасибо за любые предложения.