Если вы используете apache spark (а не частный вариант EMR), коннектор S3A собирает много статистики , включая такие вещи, как: байты, отбрасываемые при закрытии соединений, # запросов HEAD, операции удушения,и т. д.
Но: на самом деле он не собирается в spark, и потому что один экземпляр класса файловой системы для каждого сегмента s3 (следовательно, статистика) используется для каждого работника, даже если вы решите, как собирать их, они склонныпереоценить количество усилий.Там есть возможности улучшить вещи, но это займет много работы.Все, что вы в настоящее время получаете, - это прочитанные байты для каждого потока, статистика записанных байтов, которая может фактически занизить количество записанных байтов, если HTTP-запросы на загрузку данных выполняются в фоновом потоке.
Вы можете включить org.apache.hadoop.fs.s3a.S3AStorageStatistics
вести журнал при отладке, а затем журналы каждого работника искры будут фактически отслеживать эти операции, как они происходят, но это очень шумно.В первую очередь полезно при попытке отладки или низкоуровневой оптимизации производительности, например, самого ридера Parquet.
Боюсь, понятия не имею об ЭМИ, а не о моем коде.