amazon emr - при создании кластера используется передача данных? - PullRequest
0 голосов
/ 07 ноября 2018

Я использую aws с emr over ec2 и получаю тонны сборов за передачу данных, около 900 ГБ в течение нескольких дней, но я не отправляю никаких данных.

Единственное, что я делаю, - это создание кластера emr и загрузка в него данных из s3.

Я нашел это о расходах и вижу, что передача данных в Интернет не должна происходить, когда вы не отправляете никаких данных!

Я постоянно получаю информацию о нескольких платежах за передачу данных во многие регионы AWS и в Интернет. Не могу найти никаких ссылок на это. что это может быть?

1 Ответ

0 голосов
/ 07 ноября 2018

Скорее всего, вы получаете доступ к корзине S3 в другом регионе. Либо для ваших данных, либо для записи журналов кластера EMR.

Есть несколько способов диагностировать это. Прежде всего, конечно, стоит взглянуть на конфигурацию вашего кластера EMR.

Второе - включить Журналы потока VPC , которые сообщат вам точный источник и место назначения ваших данных. Однако они могут быть ограничены: если вы управляете всем трафиком через NAT, то они просто покажут NAT, а не конечный источник / назначение.

Третий подход - использовать группу безопасности, которая предотвращает исходящие соединения, и посмотреть в своих журналах, чтобы увидеть, что дает сбой.

...