Слияние данных Neo4j и HBase с использованием Apache spark - PullRequest
0 голосов
/ 15 мая 2018

Я хочу объединить данные из neo4j и hbase. После долгих поисков я решил сделать это с помощью Apache Spark (или есть ли лучший способ сделать это, который я пропустил?). Я использовал hbase-spark и neo4j-spark разъемы для извлечения данных и получения СДР.

Что я хочу знать, так это то, что объединение этих двух RDD будет происходить параллельно на разных машинах в кластере? Я понимаю, что мне, возможно, придется запускать искровые исполнители на тех же машинах, что и регионы hbase (а также я должен избегать таких методов, как collect, которые выбирают все данные на узле искрового драйвера). Проблема с neo4j. Данные извлекаются из neo4j в программе драйвера, верно? Тогда как соединение будет происходить параллельно? Будет ли искра RDD обрабатывать это прозрачно под? Или мне придется сделать некоторые настройки явно? Или я все неправильно понимаю и все это (параллельное соединение на разных машинах) просто недостижимо?

...