Вернуть определенную строку из таблицы Scala с помощью SQL - PullRequest
0 голосов
/ 19 декабря 2018

Я очень новичок в Databricks and Spark, поэтому я надеюсь, что мой вопрос ясен.Если нет, пожалуйста, дайте мне знать.

У меня есть папка в лазури с более чем 2 миллионами XML-файлов.Цель состоит в том, чтобы преобразовать все эти файлы в один CSV-файл.У меня есть код, который может конвертировать XML в CSV, а затем добавить его в CSV-файл в Azure.Я протестировал его с 50 000 файлов, и он работал.

Однако, когда я хочу преобразовать все XML-файлы (+2 миллиона), я получаю сообщение об ошибке, что превышен лимит драйвера.Я не хочу увеличивать этот лимит, поскольку он не очень эффективен, поэтому мне пришла в голову идея конвертировать один XML-файл за один раз, а затем добавить его (добавить) в CSV-файл.Поэтому вместо преобразования всех XML-файлов за одно задание я хочу преобразовать один XML-файл за одно задание.

Коллеге удалось разработать код в Scala, который создает таблицу со всеми +2 миллионами путей к файлам.,Я могу получить доступ к этой таблице: SQL:

enter image description here

(полные пути не показаны из-за соображений безопасности).

Что яна самом деле нужен код на Python, который может проходить по этой таблице и извлекать по одному пути (в виде строки) за раз.Причина, по которой мне это нужно в Python, заключается в том, что у меня есть код для преобразования в CSV в Python.Для преобразования требуется только путь в виде строки.Если я могу поместить это в цикл, в каждом цикле новая строка извлекается из таблицы в виде строки, преобразуется в CSV и затем добавляется в один CSV-файл.

Итак, мой вопрос: как можноЯ перебираю эту таблицу, возвращая путь (значение таблицы) в виде строки с каждой итерацией?Эта итерация должна пройти весь список (+2 миллиона путей).

Надеюсь, мой вопрос ясен и кто-то может помочь.

С наилучшими пожеланиями,

Ганеш

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...