Пишет в cosmosdb никогда из pyspark, работает вечно / никогда не преуспевает и не терпит неудачу - PullRequest
0 голосов
/ 14 января 2019

Я использую pyspark / databricks для данных E.T.L из файлов паркета в CosmosDB (documentdb api).

Несмотря на первый успешный тест с 5 строками данных, каждая последующая попытка записать данные в cosmosdb просто ни к чему не приведет. Даже с одним рядом, он работает вечно. При мониторинге cosmosdb существует регулярный постоянный поток запросов на запись, отображаемых в интерфейсе «metrics» в правильную коллекцию, но ничего не записывается.

В stderr in spark есть ошибки, в которых говорится, что "{" Errors ": [" Запрашиваемый ресурс больше не доступен на сервере. "]}" Но он не дает сбоя, он просто зацикливается.

Я даже не знаю, как найти там проблему.

config:

writeConfigUL = {
    "Endpoint" : "",
    "Masterkey" : "",
    "Database" : "Database",
    "Collection" : "Collection",
    "WritingBatchSize" : 500,
    "Upsert" : "true"
}

запись в режиме «перезаписи»

с использованием azure_cosmosdb_spark_2_3_0_2_11_1_2_7_uber.jar

...