Потоковая таблица кустов в блоках для локального выполнения вычислений и добавления к другой таблице на удаленном сервере. - PullRequest
0 голосов
/ 05 ноября 2019

Я должен выполнить вычисления для таблицы Hive на удаленном сервере, используя Libpostal. К сожалению, я не могу установить libpostal на этот сервер (и его последующие привязки Python). Поэтому мне было интересно, можно ли было перенести эту таблицу на мою локальную машину порциями. Диаграмма ниже должна помочь объяснить, что я имею в виду под этим:

Data transfer diagram

В основном мне нужно взять кусок этой таблицы (я не могу взятьвсе это потому, что он массивный), сохраняйте его локально в кадре данных, выполняйте необходимые вычисления локально, а затем отправляйте кусок обратно на сервер в новой таблице. Этот процесс будет повторяться до всей таблицы.

Каждый чанк будет добавлен в новую таблицу на удаленном сервере, которая будет создана во время выполнения (чтобы каждый чанк был добавлен в одну таблицу).

Я знаю, какделать каждый шаг этого процесса индивидуально. Для этого требуется 1) SSH-соединение с удаленным сервером, 2) удаление части таблицы и ее локальное хранение. 3) Выполнение необходимых вычислений для таблицы, 4) затем добавление этой новой таблицы к любой таблице, которую я сделал на удаленном сервере для этой новой таблицы.

Единственной проблемой будет 2), так как я не уверенкак просто передать данные на мою локальную машину, не сохраняя их в файл или что-то подобное. Я действительно просто хочу сохранить его в оперативной памяти как информационный фрейм и выполнить на нем вычисления, а затем очистить его и получить следующий фрагмент. Более того, это должно выполняться в цикле, пока таблица не будет полностью исчерпана.

Любая помощь с этой проблемой, будь то прямое решение этой проблемы или другой метод, который решит проблему запуска чего-либо излокальная машина на удаленном сервере, была бы очень признательна.

...