Прочитайте файл SAS, чтобы получить метаинформацию - PullRequest
0 голосов
/ 31 мая 2018

Очень новые технологии в науке о данных.В настоящее время работаем над чтением файла SAS (.sas7dbat).

Возможность прочитать файл с помощью:

SAS7BDAT('/dbfs/mnt/myMntScrum1/sasFile.sas7bdat') as f:
    for row in f:
      print(row)

Строка печатает все данные.

Когда мы просматриваем файлы SAS в средстве просмотра SAS, мы видим метаданные Например, информация метки и переменные (имена столбцов), используемые для фактических данных

Как я могу прочитать эти метаданные в Spark (Databricks) с помощью Python?

enter image description here

Ответы [ 2 ]

0 голосов
/ 04 апреля 2019

Вы пробовали pyreadstat ?

Может напрямую читать метаданные.

    import pyreadstat

    df, meta = pyreadstat.read_sas7bdat('/path/to/a/file.sas7bdat')
0 голосов
/ 01 июня 2018

Большая часть анализа данных в Python выполняется с использованием библиотеки панд, в которой есть метод read_sas, который сохраняет метаданные, если только вам не приказано использовать spark. Я настоятельно рекомендую панд.Вот набор инструкций для пользователей SAS: https://blog.dominodatalab.com/pandas-for-sas-users-part-1/

...