SSIS отправляет исходные данные Oledb в S3 Buckets в файле партера - PullRequest
0 голосов
/ 29 марта 2020

Мой источник - SQL Сервер, и я использую SSIS для экспорта данных в S3 Buckets, но теперь мое требование - отправлять файлы в виде паркетного файла.

Не могли бы вы, ребята, дать некоторые подсказки о том, как этого добиться?

Спасибо, Ven

1 Ответ

0 голосов
/ 30 марта 2020

Для тех, кто спотыкается об этом ответе, Apache Parquet - это проект, в котором указан столбчатый формат файла, используемый Had oop и другими Apache проектами.

Если только вы найдите пользовательский компонент или напишите какой-нибудь код. NET, чтобы сделать это, вы не сможете экспортировать данные с сервера SQL в файл Parquet. Компоненты больших данных KISSWAYSoft SSIS могут предложить один такой пользовательский компонент, но я не знаком с ним.

Если вы экспортируете в Azure, у вас будет два варианта:

  1. Используйте компонент Flexible File Destination (входит в состав пакета функций Azure), который экспортируется в файл Parquet, размещенный в Azure Blob или Data Lake Gen2 хранилище. ,

  2. Использование PolyBase, SQL Серверная функция. Это позволяет вам экспортировать в файл Parquet с помощью внешней таблицы 1020 *. Однако этот файл должен быть расположен в указанном месте здесь . К сожалению, S3 не подходит.

Если бы это был я, я бы переместил данные на S3 в виде файла CSV, а затем использовал бы Athena для преобразования файла CSV в Pqrquet. Здесь есть изящная статья, в которой говорится об Афинах:

https://www.cloudforecast.io/blog/Athena-to-transform-CSV-to-Parquet/

Net - net, вам нужно потратить немного деньги, проявите творческий подход, переключитесь на Azure или выполните преобразование в AWS.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...