Как загрузить (.gz) набор данных в облако Google (с использованием Python) - PullRequest
0 голосов
/ 03 июля 2018

Я хотел бы загрузить огромное количество данных, сжатых (.gz), и я не знаю, как справиться с этим. Мой набор данных это просмотров страниц из Википедии.

Моя цель - предоставить основные статистические показатели для их анализа.

Я нашел эту статью , где используется тот же набор данных, но я не знаю, как загрузить набор данных с помощью скрипта Python, который показан на шаге 1.

Я предполагаю, что при таком большом наборе анализов на локальном компьютере это не правильный подход, отсюда и идея использовать облако Google

1 Ответ

0 голосов
/ 03 июля 2018

Чрезвычайно огромный набор данных.

Чтобы скопировать файлы в Google Cloud Storage, выполните следующие действия: Cloud Storage> Документация> Загрузка объектов

Я бы не рекомендовал вам пробовать, учитывая затраты, но в любом случае, вам повезло, что ваша цель: набор данных просмотров страниц Википедии интегрирован в Google BigQuery, и он доступен здесь:

https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia_v2.pageviews_2017?tab=details

Где:

  • «Google оплачивает хранение этих наборов данных и предоставляет открытый доступ к данным через проект».

  • «Вы платите только за те запросы, которые выполняете к данным (первый 1 ТБ в месяц бесплатен).»

Подробнее см. https://cloud.google.com/bigquery/public-data/.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...