ADLA AU, назначенные для файлов JSON - PullRequest
0 голосов
/ 06 сентября 2018

У меня есть пользовательский Extractor с AtomicFileProcessing, установленным в false . Он извлекает большое количество файлов JSON (каждая строка в файле является документом JSON) и выводит два файла с успешными и неудачными запросами, оба содержат строки json (AU, выделенные более 1 для извлечения файлов). Проблема в том, что когда я использую один и тот же экстрактор для извлечения выходных файлов на первом шаге с более чем одним AU, происходит сбой с ошибкой, При анализе значения обнаружен неожиданный символ: e. Путь '', строка 0, позиция 0 .

Если я назначу 1 AU в Azure или выполню локально с AU, установленным в более чем 1, он успешно обработает данные. Это происходит из-за того, что для обработки одного файла JSON предусмотрено больше AU, а поскольку файл находится в неразборном формате, его нельзя распараллелить?

1 Ответ

0 голосов
/ 01 октября 2018

Вы можете решить эту проблему, конвертировав свой JSON-файл в Jsonlines.

http://jsonlines.org/examples/

Затем вам нужно прочитать файл, используя экстрактор текста, и использовать JsonFunctions, доступные на Microsoft.Analytics.Samples.Formats, чтобы прочитать json.

Это преобразование сделает ваш файлsplittable и вы можете распараллелить его!

...