Я работаю над потоком данных Google, который извлекает данные из pubsub, конвертирует их в avro и записывает их в GCS.
Согласно странице мониторинга, узким местом является запись файла avro в GCS (тратя 70-80% общего времени выполнения).
Я использую
- 10 рабочих n1-стандарт-8
- 10 numShards
- 5секундное фиксированное окно
- Область конечной точки GCS и потока данных одинакова.
Тогда производительность составляет около 200 000 элементов в секунду.
Это быстро в этой ситуации, или я могу что-то сделать, чтобы сделать это быстрее? (Я очень хочу!)
Спасибо