Облачный поток данных: шаг чтения файла CSV на AWS S3 (TextIO.read) иногда застревает - PullRequest
0 голосов
/ 17 января 2020

Пример кода приведен ниже.

// Java
// Apache Beam SDK verison: 2.16.0

final TupleTag<TableRow> successTag = new TupleTag<TableRow>() {};
final TupleTag<TableRow> deadLetterTag = new TupleTag<TableRow>() {};
Pipeline p = Pipeline.create(dataflowOptions)

PCollection<String> input = p.apply("ReadS3File", TextIO.read().from("s3://sourceBucket/sourceFilename.csv"));
PCollectionTuple outputTuple = input.apply("StringToBigQueryTableRow", ParDo.of(new DoFn<String, TableRow>() { /**/ }))).withOutputTags(successTag, TupleTagList.of(deadLetterTag)))

Шаг ReadS3File застревает.

Я читаю документацию по потоку данных и изучаю дамп потока, кажется, он застрял на com.amazon aws .internal.SdkFilterInputStream.read

Указание по общей ошибке

1 Ответ

0 голосов
/ 21 января 2020

Я попытался определить причину проблемы root, проанализировав дамп потока, но, боюсь, этого недостаточно. Я бы порекомендовал вам открыть дело на Google Cloud Platform, потому что для этого требуется дополнительная информация с вашей стороны, которую не следует публично обменивать здесь.

...