Можно ли загрузить базу данных непосредственно из HDFS в spark как DataFrame? - PullRequest
0 голосов
/ 25 июня 2018

У меня есть MongoDB и Spark, работающие на Zeppelin, которые используют одну и ту же HDFS.MongoDB создает базу данных .wt, хранящуюся в той же HDFS.

Я хочу загрузить коллекцию баз данных, созданную этим MongoDB, из HDFS в DataFrame Spark.

Возможно ли загрузить базу данных напрямую из HDFS в spark в качестве DataFrame?Или мне нужно использовать разъем MongoDB Spark?

1 Ответ

0 голосов
/ 04 июля 2018

Я бы не рекомендовал читать или изменять внутренние файлы WiredTiger Storage Engine *.wt.Во-первых, эти внутренние файлы могут быть изменены без уведомлений (не общедоступного API), также любые непреднамеренные изменения этих файлов могут привести к тому, что база данных окажется в недопустимом / поврежденном состоянии.

Вы можете использовать MongoDB Spark Connector для загрузки данных из MongoDB в Spark.Этот соединитель спроектирован, разработан и оптимизирован для целей чтения / записи данных между MongoDB и Apache Spark.Например, получая доступ к данным через базу данных, клиент может использовать индексы базы данных для оптимизации операций чтения.

См. Также:

...