Почему конвейер потока данных GCP выдает Python UnicodeDecode Error? - PullRequest
0 голосов
/ 19 марта 2020

У меня есть конвейер Kubeflow, который вызывает Dataflow для выполнения задания, но у меня по-прежнему одна и та же проблема:

subprocess.CalledProcessError: Command '['/usr/bin/python3', '-m', 'pip', 'download', '--dest', '/tmp/dataflow-requirements-cache', '-r', '/tmp/requirements.txt', '--exists-action', 'i', '--no-binary', ':all:']' returned non-zero exit status 1.

Что я видел до сих пор, pip больше не поддерживает опцию загрузки и таким образом, трубопровод не работает. Тем не менее, при дальнейших исследованиях у меня есть другое сообщение от модуля rsa == 4.0.0, где он имеет ошибку UnicodeDecode, которая должна быть уже исправлена ​​в соответствии с Github Issue Ошибка следующая:

Saved /tmp/dataflow-requirements-cache/rsa-4.0.tar.gz
          Complete output from command python setup.py egg_info:
          Traceback (most recent call last):
            File "<string>", line 1, in <module>
            File "/tmp/pip-build-z1xp0h1i/rsa/setup.py", line 20, in <module>
              long_description = f.read()
            File "/usr/lib/python3.6/encodings/ascii.py", line 26, in decode
              return codecs.ascii_decode(input, self.errors)[0]
          UnicodeDecodeError: \'ascii\' codec can\'t decode byte 0xc3 in position 898: ordinal not in range(128)

Кроме того, так я называю конвейер потока данных.

pipeline_args.extend(
        [
            "--runner=DataflowRunner",
            "--project={PROJECT_ID}",
            "--staging_location={STAGE_BUCKET}",
            "--temp_location={TEMP_BUCKET}",
            f"--job_name={JOB_NAME}-{str(uuid.uuid4())[:6]}",
            f"--requirements_file={REQUIREMENTS_LOCAL}",
            "--region={}".format(REGION),
        ]
    )

Что мне здесь не хватает?

...