Моя структура папок выглядит следующим образом:
Project/
--Pipeline.py
--setup.py
--dist/
--ResumeParserDependencies-0.1.tar.gz
--Dependencies/
--Module1.py
--Module2.py
--Module3.py
Мой setup.py
файл выглядит так:
from setuptools import setup, find_packages
setup(name='ResumeParserDependencies',
version='0.1',
description='Dependencies',
install_requires=[
'google-cloud-storage==1.11.0',
'requests==2.19.1',
'urllib3==1.23'
],
packages = ['Dependencies']
)
Я использовал файл setup.py для создания файла tar.gz, используя 'python setup.py sdist'. Файл tar находится в папке dist как ResumeParserDependencies-0.1.tar.gz. Я тогда указал
setup_options.extra_packages = ['./dist/ResumeParserDependencies-0.1.tar.gz'] in my pipeline options.
Однако, когда я запускаю свой конвейер в потоке данных, я получаю ошибку «Нет модуля с именем ResumeParserDependencies». Если я использую 'pip install ResumeParserDependencies-0.1.tar.gz' локально, пакет устанавливается, и я вижу его, используя 'pip freeze'.
Чего мне не хватает, чтобы загрузить пакет в Dataflow?