У меня есть данные большого размера (в ТБ или ПБ) в моей HDFS, расположенной на удаленном ПК.Теперь вместо передачи данных в логику преобразования (которая не является правильной и эффективной), я хочу запустить саму логику преобразования Python в том месте, где хранятся мои данные.
В поисках некоторых полезных идей о технологиях, которыеможет использоваться для выполнения этого требования.
Вещи, которые я пробовал до сих пор:
1) Подход 1
- Взял SSH-соединение с удаленным ПК (где данные HDFSдоступно), Скопировал мою Python Transformation Logic и выполнил ее после извлечения данных из HDFS.
2) Подход 2
- Загруженные данные HDFS в СДР Apache Spark, которые являютсяна удаленном ПК, где доступны данные HDFS и выполнено задание Spark с другого ПК.
Пожалуйста, предложите другие технологии, которые можно использовать для выполнения логики удаленно.