Я использую pyspark / databricks для данных E.T.L из файлов паркета в CosmosDB (documentdb api).
Несмотря на первый успешный тест с 5 строками данных, каждая последующая попытка записать данные в cosmosdb просто ни к чему не приведет. Даже с одним рядом, он работает вечно. При мониторинге cosmosdb существует регулярный постоянный поток запросов на запись, отображаемых в интерфейсе «metrics» в правильную коллекцию, но ничего не записывается.
В stderr in spark есть ошибки, в которых говорится, что "{" Errors ": [" Запрашиваемый ресурс больше не доступен на сервере. "]}" Но он не дает сбоя, он просто зацикливается.
Я даже не знаю, как найти там проблему.
config:
writeConfigUL = {
"Endpoint" : "",
"Masterkey" : "",
"Database" : "Database",
"Collection" : "Collection",
"WritingBatchSize" : 500,
"Upsert" : "true"
}
запись в режиме «перезаписи»
с использованием azure_cosmosdb_spark_2_3_0_2_11_1_2_7_uber.jar