Как запустить любую Transformation Logic на данных HDFS, находящихся на удаленном ПК - PullRequest
0 голосов
/ 24 апреля 2019

У меня есть данные большого размера (в ТБ или ПБ) в моей HDFS, расположенной на удаленном ПК.Теперь вместо передачи данных в логику преобразования (которая не является правильной и эффективной), я хочу запустить саму логику преобразования Python в том месте, где хранятся мои данные.

В поисках некоторых полезных идей о технологиях, которыеможет использоваться для выполнения этого требования.

Вещи, которые я пробовал до сих пор:

1) Подход 1

  • Взял SSH-соединение с удаленным ПК (где данные HDFSдоступно), Скопировал мою Python Transformation Logic и выполнил ее после извлечения данных из HDFS.

2) Подход 2

  • Загруженные данные HDFS в СДР Apache Spark, которые являютсяна удаленном ПК, где доступны данные HDFS и выполнено задание Spark с другого ПК.

Пожалуйста, предложите другие технологии, которые можно использовать для выполнения логики удаленно.

1 Ответ

0 голосов
/ 24 апреля 2019

Я бы предложил настроить Spark Cluster в той же локальной сети, где у вас есть данные, и выполнить искровые преобразования в кластере удаленно (SSH или Remote Desktop). Преимущества установки:

  • Задержка сети будет сведена к минимуму, поскольку данные передаются в локально в той же сети.

  • Быстрое выполнение преобразований с помощью распределенных механизмов обработки в памяти, таких как Apache Spark.

Примечание: пожалуйста, игнорируйте, если ответ соответствует вашему второму подходу

...