Я новичок в EMR, и у меня было несколько вопросов, с которыми я боролся последние несколько дней.Первый из них - это журналы, которые я хочу обработать, уже сжаты как .gz, и мне было интересно, могут ли эти типы файлов быть разделены emr так, чтобы над файлом работал более одного маппера.Кроме того, я читал, что входные файлы не будут разделены, если они не 5 ГБ, мои файлы не так велики, значит ли это, что они будут обрабатываться только одним экземпляром?
Мой другой вопрос может показаться довольно глупым, но возможно ли использовать потоковую передачу emr + и иметь ввод в другом месте, отличном от s3?Кажется излишним загружать журналы из CDN, а затем загружать их в мое хранилище s3 для запуска на них mapreduce.Прямо сейчас я загружаю их на мой сервер, затем мой сервер загружает их на s3, есть ли способ вырезать посредника и заставить его перейти прямо на s3 или запустить входы с моего сервера?