Я хотел использовать библиотеку h2o для обработки / проектирования данных внутри AWS Склейка с помощью оболочки python. В настоящее время мы используем pandas для таких этапов обработки данных, как
- Чтение данных из корзины S3
- обработка данных
- Передача данных обратно в корзину S3 .
Но мы сталкиваемся с проблемами памяти при чтении и обработке данных. Итак, мы подумали об использовании h2o и параллельной обработке. К сожалению, я не смог получить никакой информации об этом.