Я использую конвейер упругого преобразования карт, который использует выходные данные из нескольких сценариев PIG. По сути, выходные данные сценария PIG хранятся в определенном месте на S3, и, поскольку размер данных огромен, созданные выходные файлы называются part-xxxxx.
Теперь моя проблема заключается в том, что одним из шагов в моем конвейере является копирование содержимого из двух разных мест и их объединение, а затем выполнение обработки всей этой коллекции. Теперь, поскольку файлы в обоих местах имеют одинаковые имена (от 00000 до 00342), мои файлы перезаписываются в процессе копирования.
По умолчанию pig генерирует мои выходные файлы в указанном месте с таким форматом для имени файла. Сначала я загружал выходные файлы pig на свой диск, писал программу на python, чтобы переименовывать их, и загружал их обратно на S3. Я не могу сделать это сейчас из-за огромного количества данных.
Мне не принадлежат шаги конвейера, которые фактически делают это копирование. Все, что я могу контролировать (возможно), это имена файлов, которые копируются). Поэтому мне нужно знать, есть ли способ прикрепить префикс к именам файлов деталей, созданных pig.
Спасибо