Блоки данных подключаются к CosmosDB (MongoAPI) через mongo_spark_connector - PullRequest
0 голосов
/ 24 июня 2019

Попытка соединить блоки данных с CosmosDB (mongo api)

Я установил mongo_spark_connector_2_12_2_4_1.jar и запустите приведенный ниже код.

> from pyspark.sql import SparkSession
> 
> my_spark = SparkSession \
>     .builder \
>     .appName("myApp") \
>     .getOrCreate()
> 
> df = my_spark.read.format("com.mongodb.spark.sql.DefaultSource") \  
> .option("uri", CONNECTION_STRING) \   .load()

CONNECTION_STRING, который выглядит так: "MongoDB: // USERNAME: PASSWORD@testgp.documents.azure.com: 10255 / DATABASE_NAME.COLLECTION_NAME = SSL верно и replicaSet = globaldb"

К сожалению, я попал в java.lang.NoClassDefFoundError: org / bson / Conversions / Bson

Надеюсь, что удастся подключиться и выполнить запрос с помощью Pyspark.

Спасибо!

1 Ответ

0 голосов
/ 25 июня 2019

Вы можете получить это сообщение об ошибке из-за несоответствия зависимостей в упаковке версии jar.

Примечание: Использование страницы Spark Connector для Azure Cosmos DB в настоящее время не актуально.

Вместо того, чтобы загружать шесть отдельных jar-файлов в шесть разных библиотек, вы можете загрузить uber jar из maven по адресу https://search.maven.org/artifact/com.microsoft.azure/azure-cosmosdb-spark_2.4.0_2.11/1.4.0/jar) и установить этот один jar / library.

Дополнительные сведения см. В разделе « Подключение блоков данных Azure к Azure CosmosDB » и использование « Ускорение анализа больших данных с помощью соединителя Apache Spark для Azure Cosmos DB ».

Надеюсь, это поможет.

...