Spark Cosmos DB Connector - работа с искаженными документами - PullRequest
0 голосов
/ 18 октября 2019

Я использую соединитель Cosmos DB для Spark, доступный здесь:

Соединитель Azure Cosmos DB для Apache Spark

В отличие от считывателей CSV и JSON, это делаетПо-видимому, не предлагать опцию «mode», такую ​​как «PERMISSIVE», «DROPMALFORMED» или «FAILFAST». Скорее, он все время находится в режиме «FAILFAST». Любые проблемы с схематизацией JSON из Космоса приводят к немедленному отказу.

Есть ли режим, которого я не видел, и / или он просто недостаточно документирован? При обработке коллекции, содержащей различные схемы и не имеющей атрибутов, по которым можно было бы отличить один формат от другого, я надеялся использовать что-то вроде:

.option("mode", "PERMISSIVE")

Однако я не могу найти ничего подобного в документациии некоторые изменения этого подхода не сработали.

Мысли?

...