Как читать файлы с расширением .xlsx и .xls в фабрике данных Azure? - PullRequest
0 голосов
/ 26 сентября 2018

Я пытаюсь прочитать и превзойти файл в хранилище BLOB-объектов Azure с расширением .xlsx в моем наборе данных фабрики данных Azure.выдает следующее сообщение об ошибке

Error found when processing 'Csv/Tsv Format Text' source 'Filename.xlsx' with row number 3: found more columns than expected column count: 1.

Каковы правильные разделители столбцов и строк для файлов Excel, которые нужно прочитать в Azure Data factory

Ответы [ 2 ]

0 голосов
/ 24 февраля 2019

Фабрика данных Azure не имеет прямой возможности загрузить Excel, однако ее можно загрузить через связанную службу через некоторые конфигурации.Для этого выполните следующие шаги:

  1. Создание связанной службы с источником, используя соответствующий протокол (FTP, Fileshare, SFTP и т. Д.)
  2. Создание связанной службы в облачном хранилище.
  3. Выполните действие Копировать данные , определите набор данных источника Sink и Sink, используя ранее определенные связанные службы
  4. В Source и Sink отметьте опцию Binary file. Параметр двоичного файла
  5. Опубликовать и выполнить свой конвейер
0 голосов
/ 26 сентября 2018

Файлы Excel имеют собственный формат и не являются простыми файлами с разделителями.Как указано здесь , фабрика данных Azure не имеет прямую опцию импорта файлов Excel, например, вы не можете создать связанную службу в файле Excel и прочитать еебез труда.Возможны следующие варианты:

  1. Экспорт или преобразование данных в виде плоских файлов, например, перед передачей в облако, так как .csv, с разделителями табуляции, с разделителями каналов и т. Д. Легче читать, чем файлы Excel.Это ваш самый простой вариант, хотя, очевидно, требуется изменение процесса.
  2. Попробуйте уничтожить XML - создайте пользовательскую задачу, чтобы открыть файл Excel в формате XML и извлечь данные, как предложено здесь .
  3. Пакеты служб SSIS теперь поддерживаются в фабрике данных Azure (с действием Выполнить пакет SSIS ) и имеют лучшую поддержку файлов Excel, например диспетчера подключений.Так что может быть опцией для создания пакета служб SSIS для работы с Excel и размещения его в ADFv2. Предупреждение! Я не проверял это, я только предположил, что это возможно.Также есть издержки на создание Integration Runtime (IR) для запуска SSIS в ADFv2.
  4. Попробуйте некоторые другие настраиваемые действия, например, здесь есть собственный U-SQL Extractor для уничтожения XML на github здесь .
  5. Попробуйте прочитать Excel, используя Databricks, некоторые примеры здесь , хотя вращение кластера Spark для чтения нескольких файлов Excel кажется несколько излишним.Это может быть хорошим вариантом, если Spark уже используется в вашей архитектуре.

Дайте нам знать, как вы ладите.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...