Лучший способ экспортировать большой фрейм данных в один файл, который может использоваться Power BI - PullRequest
0 голосов
/ 29 апреля 2019

Я обрабатываю большое количество входных файлов в Azure Databricks.У моего окончательного фрейма данных примерно 98 миллионов строк.

Мне нужно экспортировать это из блоков данных, чтобы я мог импортировать его в Power BI для создания отчетов.

В настоящее время в Power BI отсутствует соединительэто может интерпретировать разделенную природу, если я просто записываю кадр данных, например, в CSV.Использовать объединение или преобразование в фрейм данных pandas и экспорт в CSV очень медленно и склонно к ресурсным ограничениям в кластере.

Я попробовал оба вышеупомянутых подхода с небольшим успехом.

Какие еще варианты у меня есть для эффективного экспорта моего фрейма данных так, чтобы Power BI могла его понять?Я не против, если это либо со стороны Databricks, либо со стороны Power Query обработки.

1 Ответ

0 голосов
/ 02 мая 2019

PowerBI имеет существующий разъем для блоков данных. Мы берем наши данные CSV и преобразуем их в разделенную таблицу с дельта-форматированием. У нас есть миллиарды записей в нашей, и PowerBI в состоянии это сделать.

Убедитесь, что вы выполнили следующие шаги, чтобы подключить ваш PowerBI к кластеру блоков данных: https://docs.databricks.com/user-guide/bi/power-bi.html#connect-power-bi-desktop-to-a-databricks-cluster

...