Question

У меня есть данные большого размера (в ТБ или ПБ) в моей HDFS, расположенной на удаленном ПК.Теперь вместо передачи данных в логику преобразования (которая не является правильной и эффективной), я хочу запустить саму логику преобразования Python в том месте, где хранятся мои данные.

В поисках некоторых полезных идей о технологиях, которыеможет использоваться для выполнения этого требования.

Вещи, которые я пробовал до сих пор:

1) Подход 1

Взял SSH-соединение с удаленным ПК (где данные HDFSдоступно), Скопировал мою Python Transformation Logic и выполнил ее после извлечения данных из HDFS.

2) Подход 2

Загруженные данные HDFS в СДР Apache Spark, которые являютсяна удаленном ПК, где доступны данные HDFS и выполнено задание Spark с другого ПК.

Пожалуйста, предложите другие технологии, которые можно использовать для выполнения логики удаленно.

Nikhil Baby · Answer 1 · 24 апреля 2019

Я бы предложил настроить Spark Cluster в той же локальной сети, где у вас есть данные, и выполнить искровые преобразования в кластере удаленно (SSH или Remote Desktop). Преимущества установки:

Задержка сети будет сведена к минимуму, поскольку данные передаются в локально в той же сети.
Быстрое выполнение преобразований с помощью распределенных механизмов обработки в памяти, таких как Apache Spark.

Примечание: пожалуйста, игнорируйте, если ответ соответствует вашему второму подходу

Как запустить любую Transformation Logic на данных HDFS, находящихся на удаленном ПК

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как запустить любую Transformation Logic на данных HDFS, находящихся на удаленном ПК

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы