Использование рабочих мест Pandas AWS Glue Python Shell - PullRequest
0 голосов
/ 15 октября 2019

В документации AWS https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html

упоминается, что

Среда для запуска задания оболочки Python поддерживает следующие библиотеки:

...

pandas (требуется для установки через конфигурацию python setuptools, setup.py)

Но здесь не упоминается, как выполнить установку.

Как использоватьПанды в работе AWS Glue Python Shell?

Ответы [ 2 ]

1 голос
/ 15 октября 2019
  1. Перейти https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html#create-python-extra-library. Проверить раздел Чтобы создать файл Python .egg или .whl для «Как создать файл установки для задания оболочки Python»
  2. Вфайл setup.py, добавьте строку install_requires=['pandas==0.25.1']:
setup(name="<module name>",
        version="0.1",
        packages=['<package name if any or ignore>'],
        install_requires=['pandas==0.25.1']
    )

Я также написал небольшой сценарий оболочки для развертывания задания оболочки Python без ручных шагов по созданию файла яйца и загрузке вS3 и развернуть с помощью облачной информации. Скрипт делает все автоматически. Вы можете найти код на https://github.com/fatangare/aws-python-shell-deploy

0 голосов
/ 16 октября 2019

Просто чтобы уточнить ответ Сандипа, вот что сработало для меня

1 / Игнорировать документ AWS

2 / Создать файл setup.py, содержащий:

from setuptools import setup

setup(name="pandasmodule",
        version="0.1",
        packages=[],
        install_requires=['pandas==0.25.1']
    )

3 / Запустите эту команду в папке, содержащей файл:

python setup.py bdist_wheel

4 / Загрузите файл .whl в s3

5 / Сконфигурируйте «Python lib path» в вашем Glue ETLЗадание на путь s3

Теперь вы можете использовать "import pandas as pd" в своем задании на клей ETL

...