Возможно, я решу следующие шаги:
- Создание тонны маленьких файлов в csv формате
- Отправка файлов на GCS .
Команда для копирования файлов в GCS:
gsutil -m cp <local folder>/* gs:<bucket name>
опция gsutil -m для параллельного выполнения
(Многопоточной / мульти-обработка)
После этого я перейду с GCS на BQ , используя Шаблон облачного потока данных по умолчанию . ссылка . (Помните, что при использовании шаблона по умолчанию вам не нужен код)
Вот пример для вызова потока данных ссылка :
gcloud dataflow jobs run JOB_NAME \
--gcs-location gs://dataflow-templates/latest/GCS_Text_to_BigQuery \
--parameters \
javascriptTextTransformFunctionName=YOUR_JAVASCRIPT_FUNCTION,\
JSONPath=PATH_TO_BIGQUERY_SCHEMA_JSON,\
javascriptTextTransformGcsPath=PATH_TO_JAVASCRIPT_UDF_FILE,\
inputFilePattern=PATH_TO_YOUR_TEXT_DATA,\
outputTable=BIGQUERY_TABLE,\
bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS