Azure Data Factory V1. Как обрабатывать несколько сценариев в одном конвейерном действии - PullRequest
0 голосов
/ 27 июня 2018

В настоящее время я пытаюсь прочитать и отключить csv-файлы с неизвестными именами столбцов в Microsoft Azure. Поэтому я использую фабрику данных с двумя действиями по анализу озера данных: первое действие генерирует скрипт для чтения и отмены данных, а второе - просто выполнение этого скрипта. Моя проблема в том, что иногда сгенерированные скрипты из первого действия слишком велики

"Длина предоставляемого сценария U-SQL составляет 6449969 байт, что превышает размер ограничение в 2097152 байта. "

Моя идея состояла в том, чтобы разделить их, но я думаю, что невозможно выполнить более 1 сценария в 1 упражнении. Поскольку я не знаю, на какую сторону будет разделен сценарий, я не могу просто добавить фиксированное количество действий.

Есть предложения?

1 Ответ

0 голосов
/ 27 июня 2018

Единственный способ обойти это ограничение на данный момент - написать собственный экстрактор. Тем не менее, вам придется предоставлять данные не в виде строки, а в виде байта [].

Если вы используете пользовательский экстрактор, который просто читает байтовый массив, вы можете получить до 4 МБ.

В общем, если вам нужно проанализировать вашу строку, это будет, вероятно, быстрее, если вы напишите свой собственный экстрактор вместо использования встроенного экстрактора, а затем напишите еще одно преобразование U-SQL или два для анализа данных. (опять же).

Вы можете обратиться к этому репо, возможно, для некоторых идей - https://github.com/Azure/usql/tree/mrys-json

...