Google Colab Загрузка данных кадра в CSV, похоже, теряет данные - PullRequest
0 голосов
/ 13 января 2020

Я импортировал 14-гигабайтный файл .csv из Google Drive в Google Drive и использовал pandas для его сортировки, а также удалил некоторые столбцы и строки.

После удаления около трети строк и около половины столбцы данных, df_edited file.shape показывает:

(27219355, 7)

Чтобы сохранить файл, лучший способ, который я смог найти, это:

from google.colab import files

df_edited.to_csv('edited.csv')
files.download('edited.csv')

Когда я запускаю это, по прошествии длительного времени (если он не обработал sh, что происходит примерно 1 из 2 раз), он открывает диалоговое окно для сохранения файла локально.

Затем я говорю "да" для сохранения и разрешения это сохранить. Тем не менее, он уменьшает размер файла CSV в 14 гигабайт, который я, вероятно, разрезал пополам, примерно до 7 гигов, до файла CSV размером около 100 мегабайт.

Когда я открываю файл локально, он запускает Excel, и я вижу только около 358 000 наблюдений вместо того, что должно быть около 27 миллионов. Я знаю, что Excel показывает только ограниченное количество, но тот факт, что размер CSV-файла был сокращен до 100 мегабайт, говорит о том, что в процессе загрузки было потеряно много данных.

Есть ли что-нибудь в коде выше, это может привести к потере всех этих данных?

Или что может быть причиной.

Спасибо за любые предложения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...