GCP Datafusion повторяет те же данные из GCS - PullRequest
1 голос
/ 09 марта 2020

У меня есть конвейер, который читает 20 файлов из хранилища, извлекает из него путь к каждому файлу и загружает их в таблицу. В идеале количество записей должно быть 20, но когда я выполняю конвейер, одна и та же запись выполняется снова и снова, делая общее количество записей увеличиваться бесконечно. Интересно, я здесь ошибаюсь?

1 Ответ

1 голос
/ 09 марта 2020

Я только что повторил проблему. Я предполагаю, что вы вставляете одну запись в BigQuery для каждой записи в файлах. Например, если вы выберете формат Blob, у вас будет только одна запись на файл.

...