Почему DataflowRunner помещает какое-то значение ha sh в имя файла jars? - PullRequest
0 голосов
/ 08 марта 2020

Когда DataflowRunner запускается, он загружает файлы JAR в место подготовки. Почему он генерирует то, что кажется ha sh значениями в конце имени фляги? И как это ха sh генерируется? Поддерживает ли он jar-файлы с изменяющимся содержимым, как в SNAPSHOTS?

Например, beam-sdks-java-harness-2.18.0.jar становится beam-sdks-java-harness-2.18.0-zSYSExFXVnBkN_8dj0glwg.jar

Я бы предпочел оставить имя как есть, потому что тогда я мог бы использовать gsutil -m cp ... для ускорения загрузки. В качестве альтернативы, к существующему механизму может быть добавлена ​​функция мультизагрузки.

Кроме того, где я могу отправлять вопросы или запросы функций для DataflowRunner? В настоящее время он не расширяет файловые глобусы, например, target/libs/*, поэтому я делаю это сам с помощью сценария оболочки, но я хотел бы видеть это в качестве основной функции.

1 Ответ

1 голос
/ 09 марта 2020

Можно найти информацию о Github :

Размещает файлы в {@link DataflowPipelineOptions # getStagingLocation ()}, суффикс которых содержит md5 ha sh, чтобы избежать коллизии.

К файлам будет добавлен MD5 га sh. Таким образом, имя файла будет file-<someHash>.zip. Алгоритм дайджеста сообщений MD5 - это широко используемая функция ha sh, производящая 128-битное значение ha sh.

Вы также можете проверить этот поток Stackoverflow. Вы можете создать запрос на выпуск или функцию для потока данных здесь .

Надеюсь, это поможет.

...