Я хочу скачать набор данных c4. Согласно странице инструкции: https://www.tensorflow.org/datasets/catalog/c4, рекомендуется использовать поток данных. Я выполнил шаги, описанные здесь: https://www.tensorflow.org/datasets/beam_datasets в google colab.
Пакеты:
!pip install -q tensorflow-datasets
!pip install -q apache-beam[gcp]
Это ячейка, которую я пытаюсь запустить в colab
%env DATASET_NAME=c4/en
%env GCP_PROJECT=......
%env GCS_BUCKET=gs://c4-dump
%env DATAFLOW_JOB_NAME=c4-en-gen
!echo "tensorflow_datasets[$DATASET_NAME]" > /tmp/beam_requirements.txt
!python -m tensorflow_datasets.scripts.download_and_prepare \
--datasets=$DATASET_NAME
--data_dir=$GCS_BUCKET \
--beam_pipeline_options="runner=DataflowRunner,project=$GCP_PROJECT,job_name=$DATAFLOW_JOB_NAME,staging_location=$GCS_BUCKET/binaries,temp_location=$GCS_BUCKET/temp,requirements_file=/tmp/beam_requirements.txt"
Это почти тот же код, что и в руководстве. Но на вкладке «Поток данных» не создается задание потока данных, и похоже, что оно загружается локально. Смотрите журналы вывода:
env: DATASET_NAME=c4/en
env: GCP_PROJECT=ai-vs-covid19
env: GCS_BUCKET=gs://c4-dump
env: DATAFLOW_JOB_NAME=c4-en-gen
2020-03-31 02:18:46.297213: I tensorflow/stream_executor/platform/default/dso_loader.cc:44] Successfully opened dynamic library libcudart.so.10.1
I0331 02:18:49.098738 139869050173312 download_and_prepare.py:180] Running download_and_prepare for datasets:
c4/en
I0331 02:18:49.099436 139869050173312 download_and_prepare.py:181] Version: "None"
I0331 02:18:50.353859 139869050173312 dataset_builder.py:202] Load pre-computed datasetinfo (eg: splits) from bucket.
I0331 02:18:50.468347 139869050173312 dataset_info.py:431] Loading info from GCS for c4/en/2.2.1
I0331 02:18:50.522799 139869050173312 download_and_prepare.py:130] download_and_prepare for dataset c4/en/2.2.1...
I0331 02:18:50.560583 139869050173312 driver.py:124] Generating grammar tables from /usr/lib/python3.6/lib2to3/Grammar.txt
I0331 02:18:50.683776 139869050173312 driver.py:124] Generating grammar tables from /usr/lib/python3.6/lib2to3/PatternGrammar.txt
I0331 02:18:51.189772 139869050173312 dataset_builder.py:310] Generating dataset c4 (gs://c4-dump/c4/en/2.2.1)
Downloading and preparing dataset c4/en/2.2.1 (download: 6.96 TiB, generated: 816.78 GiB, total: 7.76 TiB) to gs://c4-dump/c4/en/2.2.1...
А потом куча
Dl Completed...: 0% 0/18 [00:38<?, ? url/s]
Dl Completed...: 0% 0/18 [00:38<?, ? url/s]
Dl Completed...: 0% 0/18 [00:39<?, ? url/s]I0331 02:19:33.506697 139869050173312 download_manager.py:256] Downloading https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2019-18/segments/1555578517558.8/wet/CC-MAIN-20190418101243-20190418123243-00326.warc.wet.gz into gs://c4-dump/downloads/comm.s3_craw-data_CC-MAIN-2019-18_segm_1555iQS7Yn3hZ3JmwClTiCNY5qtVgGfQQAObrCqx7cMloOg.gz.tmp.1bbeb83abada465287dcecabb0e4f4b0...
Я что-то упустил или это просто подготовительный этап? Моя главная проблема в том, что я не вижу работающего задания потока данных.
Спасибо!
UPD: пробовал тот же подход с экземпляром вычисления - тот же результат.