Как проанализировать данные файла EDIFACT с помощью apache spark? - PullRequest
0 голосов
/ 12 ноября 2018

Может кто-нибудь посоветовать мне, как анализировать данные формата EDIFACT с помощью Apache spark?

У меня есть требование, поскольку каждый день данные EDIFACT будут записываться в корзину aws s3.я пытаюсь найти лучший способ преобразовать эти данные в структурированный формат, используя Apache spark.

1 Ответ

0 голосов
/ 12 ноября 2018

Если у вас есть счета в формате EDIFACT, вы можете прочитать каждый из них как одну строку на счет-фактуру, используя СДР.Тогда у вас будет RDD [String], который представляет распределенную коллекцию счетов.Взгляните на https://github.com/CenPC434/java-tools, с этим вы можете конвертировать строки EDIFACT в XML.В этом репо https://github.com/databricks/spark-xml показано, как использовать формат XML в качестве входного источника для создания фреймов данных и выполнения множественных запросов, агрегации ... И т. Д.

...